最近公司项目哀求把数据除了页面输出也希望有导出功能,虽然之前也做过几个导出功能,但这次数据量相比拟较大,差不多一天数据就20W条,哀求导7天或者30天,那么数据量就轻松破百万了乃至破千万,因此开拓的过程中创造了一些大数据导出的坑,在此跟大家分享一下,相互学习。

准备:

1、PHP设置坑:

php多文件压缩PHP百万级数据导出计划多csv文件紧缩实例讲授 Webpack

set_time_limit – 设置脚本最大实行韶光:

此配置一样平常PHP默认是30秒,如果你是数据小的,可能就不会创造有该设置问题,但如果你数据达到了百万级导出,每每30秒是不足的,因此你须要在你的脚本中添加 set_time_limit(0),让该脚本没有实行韶光现在

memory_limit – PHP的内存限定:

此配置一样平常php默认是128M,如果之前做过小数据的朋友可能也会动过这个配置就能办理许多问题,或许有人想,你大数据也把这个调大不就行了吗?那么真的是too young too native了,你本地能设置1G或者无限制或许真的没问题,但是正式场,你这么搞迟早会失事的,一个PHP程序占那么大的内存的空间,如果你叫你公司运维帮忙调一下配置,估计运维一定很不宁愿,做事器硬件这么搞也是太奢侈了。
以是说,我们要只管即便避免调大该设置。

2、excel坑:

既然是导出数据,大伙们当然立时想到了excel格式了,多方便查看数据呀,然而切切没想到excel也是有脾气的呀!
 

表数据限定:

?

1

2

Excel 2003及以下的版本。
一张表最大支持65536行数据,256列。

Excel 2007-2010版本。
一张表最大支持1048576行,16384列。

也便是说你想几百万条轻轻松松一次性导入一张EXCEL表是弗成的,你最少须要进行数据分割,担保数据不能超过104W一张表。

PHPexcel内存溢出:

既然数据限定在104W,那么数据分割就数据分割呗,于是你考试测验50W一次导入表,然而PHPexcel内部有函数报内存溢出错误,然后你就不断的调小数据量,直到5W一次导入你都会创造有内存溢出错误。
这是为什么呢,虽然你分割数据来导入多个数据表,但是末了PHPexcel内部还是一次性把所有表数据放进一个变量中来创建文件……额,这几百万数据一个变量存储,你想内存不溢出,还真有点困难。

(后来看了一些文章创造PHPExcel也有办理方案,PHPExcel_Settings::setCacheStorageMethod方法变动缓冲办法来减小内存的利用)

3、csv坑:

EXCEL这么麻烦,我不用还弗成吗?我用csv文件储存,既不限定数量,还能直接用EXCEL来查看,又能往后把文件导入数据库,一举几得岂不是美哉?咦,少侠好想法!
但是CSV也有坑哦!

输出buffer过多:

当你用PHP原生函数putcsv()实在就利用到了输出缓存buffer,如果你把几百万的数据一贯用这个函数输出,会导致输出缓存太大而报错的,因此我们每隔一定量的时候,必须进行将输出缓存中的内容取出来,设置为等待输出状态。
详细操作是:

?

1

2

ob_flush();

flush();

详细解释先容:PHP flush()与ob_flush()的差异详解

EXCEL查看CSV文件数量限定:

大多数人看csv文件都是直接用EXCEL打开的。
额,这不便是回到EXCEL坑中了吗?EXCEL有数据显示限定呀,你几百万数据只给你看104W而已。
什么?你不管?那是他们打开办法不对而已?不好不好,我们办理也不难呀,我们也把数据分割一下就好了,再分开csv文件保存,反正你不分割数据变量也会内存溢出。

4、总结做法

剖析完上面那些坑,那么我们的办理方案来了,假设数据量是几百万。

1、那么我们要从数据库中读取要进行数据量分批读取,以防变量内存溢出,

2、我们选择数据保存文件格式是csv文件,以方便导出之后的阅读、导入数据库等操作。

3、以防未便利excel读取csv文件,我们须要104W之前就得把数据分割进行多个csv文件保存

4、多个csv文件输出给用户下载是不友好的,我们还须要把多个csv文件进行压缩,末了供应给一个ZIP格式的压缩包给用户下载就好。

代码

//导出解释:由于EXCEL单表只能显示104W数据,同时利用PHPEXCEL随意马虎由于数据量太大而导致占用内存过大,

//因此,数据的输出用csv文件的格式输出,但是csv文件用EXCEL软件读取同样会存在只能显示104W的情形,以是将数据分割保存在多个csv文件中,并且末了压缩成zip文件供应下载

function putCsv(array $head, $data, $mark = 'attack_ip_info', $fileName = \"大众test.csv\公众)

{

set_time_limit(0);

$sqlCount = $data->count();

// 输出Excel文件头,可把user.csv换成你要的文件名

header('Content-Type: application/vnd.ms-excel;charset=utf-8');

header('Content-Disposition: attachment;filename=\公众' . $fileName . '\公众');

header('Cache-Control: max-age=0');

$sqlLimit = 100000;//每次只从数据库取100000条以防变量缓存太大

// 每隔$limit行,刷新一下输出buffer,不要太大,也不要太小

$limit = 100000;

// buffer计数器

$cnt = 0;

$fileNameArr = array();

// 逐行取出数据,不摧残浪费蹂躏内存

for ($i = 0; $i < ceil($sqlCount / $sqlLimit); $i++) {

$fp = fopen($mark . '_' . $i . '.csv', 'w'); //天生临时文件

// chmod('attack_ip_info_' . $i . '.csv',777);//修正可实行权限

$fileNameArr[] = $mark . '_' . $i . '.csv';

// 将数据通过fputcsv写到文件句柄

fputcsv($fp, $head);

$dataArr = $data->offset($i $sqlLimit)->limit($sqlLimit)->get()->toArray();

foreach ($dataArr as $a) {

$cnt++;

if ($limit == $cnt) {

//刷新一下输出buffer,防止由于数据过多造成问题

ob_flush();

flush();

$cnt = 0;

}

fputcsv($fp, $a);

}

fclose($fp); //每天生一个文件关闭

}

//进行多个文件压缩

$zip = new ZipArchive();

$filename = $mark . \"大众.zip\"大众;

$zip->open($filename, ZipArchive::CREATE); //打开压缩包

foreach ($fileNameArr as $file) {

$zip->addFile($file, basename($file)); //向压缩包中添加文件

}

$zip->close(); //关闭压缩包

foreach ($fileNameArr as $file) {

unlink($file); //删除csv临时文件

}

//输出压缩文件供应下载

header(\"大众Cache-Control: max-age=0\"大众);

header(\"大众Content-Description: File Transfer\"大众);

header('Content-disposition: attachment; filename=' . basename($filename)); // 文件名

header(\"大众Content-Type: application/zip\公众); // zip格式的

header(\"大众Content-Transfer-Encoding: binary\公众); //

header('Content-Length: ' . filesize($filename)); //

@readfile($filename);//输出文件;

unlink($filename); //删除压缩包临时文件

}

总结:

实在上面代码还是有优化的空间的,比如说用非常捕捉,以防由于某些缺点而导致天生了一些临时文件又没有正常删除,还有PHPexcel的缓存设置大概能办理内存溢出问题,可以天生一个EXCEL文件多个事情表的形式,这样对付文件阅读者来说更友好。

以上便是本人对PHP大数据导出的见地,希望能帮到您们,同时不敷的地方请多多指教!