首页 › 开发帮助文档 › 服务系统 › Linux下删除大数据文件中部分字段重复行的方法 ...

[Linux] Linux下删除大数据文件中部分字段重复行的方法

服务系统发布于：2021-10-03 20:56 | 阅读数：228 | 评论：0

3329 主题	4 回帖	3335 积分

系统审核员

积分: 3335

发消息

找来找去linux下也没找到合适的工具，sed/gawk等流处理工具只能针对一行一行处理，并无法找到字段重复的行。看来只好自己python一个程序了，突然想起来利用mysql，于是进行乾坤大挪移
最近写的一个数据采集程序生成了一个含有1千多万行数据的文件，数据由4个字段组成，按照要求需要删除第二个字段重复的行，找来找去linux下也没找到合适的工具，sed/gawk等流处理工具只能针对一行一行处理，并无法找到字段重复的行。看来只好自己python一个程序了，突然想起来利用mysql，于是进行乾坤大挪移：

1. 利用mysqlimport --local dbname data.txt导入数据到表中，表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield）

use dbname; 
alter table tablename add rowid int auto_increment not null; 
create table t select min(rowid) as rowid from tablename group by uniqfield; 
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid; 
drop table tablename; 
rename table t2 to tablename;

免责声明：

1. 本站所有资源来自网络搜集或用户上传，仅作为参考不担保其准确性！

2. 本站内容仅供学习和交流使用，版权归原作者所有！© 查看更多

3. 如有内容侵害到您，请联系我们尽快删除，邮箱：kf@codeae.com

分享到： QQ好友和群 QQ空间

返回列表

湛蓝之海 LV3

3335 经验

3329 文档

[Linux] Linux下删除大数据文件中部分字段重复行的方法

相关帖子

Linux上查看用户创建日期的几种方法总结

在Linux里安装和启动nginx的方法

基于Linux中vnc配置端口号的修改方法

Linux 内核最新高危提权漏洞：脏管道 (Dirty Pipe)

利用Linux防火墙隔离本地欺骗地址的方法详解

一次minerd肉鸡木马的排查思路

Linux中如何排查网络？常见的网络排查指令都有哪些?

串行控制台如何在 Linux 上工作？

在 CentOS 8 中删除旧的 Linux 系统内核

阿里云服务器CentOS升级命令

湛蓝之海 LV3