几千万行的数据，如何查询重复次数的效率最高呢？

问答 2070号炼丹师

Lv1 居士

2024-03-08 19:09 发布在 Pandas 573 1

问答 2070号炼丹师 573 1

重复次数

几千万行的数据，如何查询重复次数的效率最高呢？

我有一个2G大小的csv文件a，有几千万行数据，每一行又有十多列，每个单元格都是字符串的数据，还有另一个几万行的文件b，列数和文件a一样，单元格也都是字符串数据。

我想查询文件b里每一整行在文件a中重复出现了多少次，请问要用什么方式处理能把效率提升起来呢？

版权声明：作者保留权利，不代表意本站立场。如需转载请联系本站以及作者。

参与讨论

0/1000

Emoji表情发表 Ctrl+Enter

回复《几千万行的数据，如何查询重复次数的效率最高呢？》

EditorJs 编辑器

沙发，很寂寞~

举报

打赏TA

我的帖子列表
提问者信息

关注TA

2070号炼丹师

Lv1 居士

1

帖子

0

收到打赏

0

粉丝

这个人很懒，还没有填写座右铭
- 几千万行的数据，如何查询重复次数的效率最高呢？
打赏记录

查看全部

打赏者尘埃理由

还没有人打赏TA，如果觉得作者写的不错，可以点击页面右上角的免费打赏作者噢！

打赏列表
等待回复
- pandas读取excel
  
  问答
  2165号炼丹师
  2024-10-18 16:17
- Pandas就是一坨屎，垃圾玩意，连个excel都读不明白
  
  讨论
  2114号炼丹师
  2024-06-10 15:24
- Cannot set name on a level of a MultiIndex
  
  问答
  2026号炼丹师
  2023-12-27 11:07
- 返回两个dataframe中index和内容都相同的行
  
  讨论
  1989号炼丹师
  2023-10-31 00:33
- Win10 64位安装python32位后，成功安装pandas 但不能import
  
  问答
  1968号炼丹师
  2023-09-12 13:33
- 这两行代码的本质区别是什么呢，在后续的应用上有什么不同？
  
  问答
  1924号炼丹师
  2023-07-06 19:37
- 上一篇
  怎么更改pandas的界面语言
- 下一篇
  按列循环命令for t,s in df.iteritems()：出错

反馈