pandas 分批读取大数据集

如果你的电脑内存较小那么想在本地做一些事情是很有局限性的(哭丧脸),比如想拿一个 kaggle 上面的竞赛来练练手,你会发现多数训练数据集都是大几 G 或者几十 G 的,自己那小破电脑根本跑不起来。行,你有 8000w 条样本你牛逼,我就取 400w 条出来跑跑总行了吧(狡滑脸)。

下图是 2015 年 kaggle 上一个 CTR 预估比赛的数据集:

看到 train 了吧,原始数据集 6 个 G,特征工程后得多大?那我就取 400w 出来 train。为了节省时间和完整介绍分批读入数据的功能,这里以 test 数据集为例演示。其实就是使用 pandas 读取数据集时加入参数 chunksize。

可以通过设置 chunksize 大小分批读入,也可以设置 iterator=True 后通过 get_chunk 选取任意行。

当然将分批读入的数据合并后就是整个数据集了。

ok 了!

————————————————
版权声明:本文为 CSDN 博主「htbeker」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/htbeker/article/details/86542412