"如果你的电脑内存较小那么想在本地做一些事情是很有局限性的（哭丧脸），比如想拿一个 kaggle 上面的竞赛来练练手，你会发现多数训练数据集都是大几 G 或者几十 G 的，自己那小破电脑根本跑不起来。行，你有 8000w 条样本你牛逼，我就取 ...."

那人那山那块饼干

Rpa 12470 号会员
Pandas • 0 回帖 • 802 浏览 • 2021-05-21 18:41:50

pandas 分批读取大数据集

如果你的电脑内存较小那么想在本地做一些事情是很有局限性的（哭丧脸），比如想拿一个 kaggle 上面的竞赛来练练手，你会发现多数训练数据集都是大几 G 或者几十 G 的，自己那小破电脑根本跑不起来。行，你有 8000w 条样本你牛逼，我就取 400w 条出来跑跑总行了吧（狡滑脸）。

下图是 2015 年 kaggle 上一个 CTR 预估比赛的数据集：

看到 train 了吧，原始数据集 6 个 G，特征工程后得多大？那我就取 400w 出来 train。为了节省时间和完整介绍分批读入数据的功能，这里以 test 数据集为例演示。其实就是使用 pandas 读取数据集时加入参数 chunksize。

可以通过设置 chunksize 大小分批读入，也可以设置 iterator=True 后通过 get_chunk 选取任意行。

当然将分批读入的数据合并后就是整个数据集了。

ok 了！

————————————————
版权声明：本文为 CSDN 博主「htbeker」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/htbeker/article/details/86542412