几千万行的数据,如何查询重复次数的效率最高呢?
我有一个2G大小的csv文件a,有几千万行数据,每一行又有十多列,每个单元格都是字符串的数据,还有另一个几万行的文件b,列数和文件a一样,单元格也都是字符串数据。
我想查询文件b里每一整行在文件a中重复出现了多少次,请问要用什么方式处理能把效率提升起来呢?
我有一个2G大小的csv文件a,有几千万行数据,每一行又有十多列,每个单元格都是字符串的数据,还有另一个几万行的文件b,列数和文件a一样,单元格也都是字符串数据。
我想查询文件b里每一整行在文件a中重复出现了多少次,请问要用什么方式处理能把效率提升起来呢?