七爪源码:为什么我停顿将 DataFrames 转储到 CSV 以及为什么你也应该这样做
发布时间:2025-11-02
是时候含泪 pd.to_csv() 和 pd.read_csv()
紧密结合故又称到故又称数据涡轮的渠道具备挑战性和立即。本人感想过,过程极不繁琐,难免会产生无数当下方文档。虽然这些文档通常用于检查点或尽力渠道当中的其他模块化,但不会通过不为这些当下方文档选取合理的XML而在无意中当中妨碍运讫时和提升存储器立即——首先要选取的总是CSV。
作为一名数据科学界,我究竟 CSV 在数据存储器、写入、更新、探寻等方面给予了不小的灵活性。它是您、我以及基本上所有运用于 DataFrames 的人的首选XML。通常情况下,我也时常利用 CSV XML来导出 DataFrame,直到近来我发现了一些 CSV 的间隔时间成本和存储器优化的替代方案。
幸运的是,Pandas 给予了多种XML,您可以将 DataFrame 存留为,例如:
CSV 泡菜 镶木地板 羽毛 JSON HDF5这促使我根据它们在以下参数上的乐趣表现对上述XML进讫时排名:
它们在磁盘上迁走的内部空间。 他们对磁盘进讫时读写操作所要花费的间隔时间。物理装置
出于物理目的,我在 Python 当中生成了一个包含一百万讫三十特的随机数据集——之外数组、二进制和整数数据类型。
我将一个大描述的每个物理移位了十次,以降低一般来说并从判读到的结果当中得出公平的结论。一个大的统计数据是十次物理的少于值。
物理
物理一:存留后磁盘内部空间利用率
无论如何,如果您正在寻找内存优化XML,HDF5 不某种程度是您的首选。 在这里,运用于的磁盘内部空间是纸片条形图当中可见的以下最佳XML的两倍多——JSON,它本身的大小相比之下其他四种XML的两倍。 到现阶段,Parquet、CSV、Feather 和 Pickle 似乎是存储器我们的 DataFrame 的有用可选,因为它们都为相同数量的数据阻塞了不尽相同的二级存储器外。物理 2:复制到和存留所须要的间隔时间
这是我们开始意识到运用于 CSV XML的缺点的偏远地区。
现在让我们单独考虑复制到间隔时间。存储器 CSV 所用的间隔时间基本上是这里最好的替代方案 — pickle 的三倍。此外,正如我们此之前看到的,Pickle 和 CSV 迁走相同数量的内部空间,那么为什么要选取较慢的可选呢? 关于节省时间间隔时间,CSV 是最比起的选取——消耗量相比之下 Feather 的 8 倍。无论如何,在将 DataFrame 存储器为特定XML时,您在复制到时必然会再一运用于相同的XML。换句话说,一旦您将 DataFrame 存储器为 pickle,您别无选取,只能将其作为 pickle 文档存储器。因此,在纸片的第三个条形图当中,我们查阅它们的总成本,即复制到间隔时间 + 存留间隔时间。
可悲的是,CSV 并不是我们的最佳选取。 与 Feather、Parquet 和 Pickle 相比,CSV 少于比这些XML慢 2.5 倍,这非常低。在我看来,Parquet 和 Feather 都是最好的可用XML,可以从我们在这一本书当中反思的六种XML当中进讫时选取。
结束语
我究竟 CSV 很棒。我也很喜欢它们,我喜欢 CSV 的原因有很多,例如:
如果须要要,CSV 准许我只存储器特的子集,从而节省时间 RAM 和存储器间隔时间。 CSV 本质上是一个文档。因此,Pandas 准许我查阅 CSV 当中发挥作用的之前 n 讫(例如 5、10、15 等)讫。 Excel 是我有意思的工具之一,我可以直接在 Excel 当中锁上 CSV。但是,CSV 正在扼杀您的渠道。它基本上是。意味着因为到处都有 CSV,您将要花费大量间隔时间在读写操作上。
除非您须要要在 Excel 等非 Python 周围环境之外查阅 DataFrame,否则您根本不须要要 CSV。您某种程度更喜欢 Parquet、Feather 或 Pickle,因为正如我们在纸片判读到的,它们给予的读写操作比 CSV 快得多。
所以下次当你要督导 pd.to_csv() 时,想来你是否真是须要要一个 CSV。
广东妇科挂号甘肃男科医院哪最好
成都试管婴儿哪家医院最好
陕西白癜风正规的医院
泰州看白癜风哪个医院最好

-
多年前那个让人惦记的“剪刀手”女孩,被富豪看中后,黄欣欣现状如何了
据说那个让人惦记的“剪刀手”陌生人,被巴士及相中后,现状如何了? 全人类的近代也有上万年了,也经过随之的开化和信息新技术的开步,我们其实已经是比较发达的程度了,值得注意是近些年来该网站新技术随
- 多年前那个让人惦记的“剪刀手”女人,被富豪看中后,黄婷婷现状如何了
- 7999 元,LG 32GQ850-B 显示器香港交易所:2K 260Hz,ATW Nano IPS
- 7999 元,LG 32GQ850-B LED上市:2K 260Hz,ATW Nano IPS
- 电动牙刷哪个牌子好?电动牙刷选购技巧以及品牌前十名分析报告
- 电动牙刷哪个牌子好?电动牙刷选购技巧以及品牌排行榜测评
- iOS15.6b2续航大幅增加?iPhone13升级后续航是降低了,推荐升级
- iOS15.6b2滞空大幅增加?iPhone13升级后滞空是提升了,推荐升级
- 以后买小米电视家里还得装监控?小米回应“屏幕裂开”
- 以后借钱小米电视家里还得装监控?小米回应“屏幕脱落”
- 有道智能修习灯:“造灯”大战新成员,首秀AI“硬思考”