七爪源码:是时候谢幕 pd.read_csv() 和 pd.to_csv()
发布时间:2025-11-02
讨论 Pandas 的另一个主要无视
Pandas 对 CSV 的BIOS转换是模版的,这使得它们非常低效和费时。 当我在这里看到足够的并行化空间时,这令人沮丧,但差点的是,Pandas 不备有此功能。 尽管我不该提案一开始就适用 Pandas 创建人 CSV(代为写出我直到从前的匿名明白原因),但我发觉在某些情形,除了适用 CSV 均几天后。
因此,在这序言中都,我们将追寻 Dask 和 DataTable,这两个最受资料科学研究喜爱的类 Pandas 托。 我们将根据 Pandas、Dask 和 Datatable 在以下参数上的发挥对它们透过前三名:
1. 载入 CSV 并取得 PANDAS DATAFRAME 所须要的间隔时间
如果我们通过 Dask 和 DataTable 载入 CSV,它们将分别填充 Dask DataFrame 和 DataTable DataFrame,而不是 Pandas DataFrame。 举例我们就让坚持传统的 Pandas 语法和数组(由于熟悉),我们须要首先将它们转换为 Pandas DataFrame,如下示意图。
2. 将 PANDAS DATAFRAME 存储器到 CSV 所须要的间隔时间
要能是从个数的 Pandas DataFrame 填充 CSV 元资料。 对于 Pandas,我们仍未发觉 df.to_csv() 方法。 但是,要从 Dask 和 DataTable 创建人 CSV,我们首先须要要将个数的 Pandas DataFrame 转换为它们各自的 DataFrame,然后将它们存储器在 CSV 中都。 因此,我们还将在此分析中都权衡此 DataFrame 转换所耗时的间隔时间。
实验者装置:
出于实验者意在,我在 Python 中都填充了一个随机资料集,其中都构成MA行和三十列——包含字符串、元组和整数资料类型。 我将请注意发觉明了的每个实验者移位了五次,以减少随机性并从判读到的结果中都结论不合理的结论。 我在下一节中都分析报告的资料是五个实验者的平均值。 Python环境和托: 老虎 3.9.12 大熊猫 1.4.2 资料表 1.0.0 黎明 2022.02.1实验者 1:载入 CSV 所须要的间隔时间
上图发觉明了了 Pandas、Dask 和 DataTable 载入 CSV 元资料并填充 Pandas DataFrame 所耗时的间隔时间(以秒为单位)。 CSV 的可有从 100k 到 500 万不等。
实验者相比之下,当可有差不多一百万时,Dask 和 Pandas 从 CSV 填充 Pandas DataFrame 的间隔时间大致相同。 但是,当我们多曾达一百万;也,Dask 的安全性时会有所改善,填充 Pandas DataFrame 所耗时的间隔时间要比 Pandas 本身小得多。 在这两种情形,Datatable 在 Pandas 中都填充 DataFrame 所须要的间隔时间至多,备有高曾达 4 到 5 倍的加速——使其成为目前为止同样的选择。实验者 2:保有到 CSV 所须要的间隔时间
上图发觉明了了 Pandas、Dask 和 DataTable 从个数的 Pandas DataFrame 填充 CSV 元资料所耗时的间隔时间(以秒为单位)。 可有范围从 100k 到 500 万。
在所有情形,Dask 在将 Pandas DataFrame 存储器到 CSV 方面的发挥都比 Pandas 差。 与实验者 1 多种不同,DataTable 发挥同样——将近似于 Pandas 将保有过程提高了将近 8 倍。结束语
从来不发觉,我不是 CSV 的忠实留言。 如果您不可避免写出了我之前的匿名(我在里面链接过,或者您可以在这里写出)以及您从前正在写出的匿名,您可能也时会引起我的共鸣。 由于我发现了与 CSV 均的众多问题,因此我已最大限度停止适用它们。
最后,我就让发觉,除非您须要要在 Excel 等非 Python 环境均查看 DataFrame,否则您根本不须要要 CSV。 颇受喜爱 Parquet、Feather 或 Pickle 等格式来存储器 DataFrame。 尽管如此,如果您看不到其他选项,至少可以通过运用 DataTable 而不是 Pandas 来优化您的输入和编码器转换。
上海癫痫专家苏州白癜风专科医院
贵州癫痫医院哪里比较好
苏州看白癜风去哪里最好
海南男科医院哪家最好

-
多年前那个让人惦记的“剪刀手”女孩,被富豪看中后,黄欣欣现状如何了
据说那个让人惦记的“剪刀手”陌生人,被巴士及相中后,现状如何了? 全人类的近代也有上万年了,也经过随之的开化和信息新技术的开步,我们其实已经是比较发达的程度了,值得注意是近些年来该网站新技术随
- 多年前那个让人惦记的“剪刀手”女人,被富豪看中后,黄婷婷现状如何了
- 7999 元,LG 32GQ850-B 显示器香港交易所:2K 260Hz,ATW Nano IPS
- 7999 元,LG 32GQ850-B LED上市:2K 260Hz,ATW Nano IPS
- 电动牙刷哪个牌子好?电动牙刷选购技巧以及品牌前十名分析报告
- 电动牙刷哪个牌子好?电动牙刷选购技巧以及品牌排行榜测评
- iOS15.6b2续航大幅增加?iPhone13升级后续航是降低了,推荐升级
- iOS15.6b2滞空大幅增加?iPhone13升级后滞空是提升了,推荐升级
- 以后买小米电视家里还得装监控?小米回应“屏幕裂开”
- 以后借钱小米电视家里还得装监控?小米回应“屏幕脱落”
- 有道智能修习灯:“造灯”大战新成员,首秀AI“硬思考”