shell两个文件去重的多种姿势

2026-03-24 06:47:03

前言

大家都知道shell在文本处理上确有极大优势，比如多文本合并、去重等，但是最近遇到了一个难搞的问题，即两个大数据量文件去重。下面来看看详细的介绍吧。

要求

有txt文件A.txt和B.txt。

其中A为关键词和搜索量，以逗号分隔，约90万行。

B为关键词，约400万行。

需要从A中找出与B重复的关键词。

我试了N种姿势，但结果都不尽人意，最奇怪的是有些方法对小数据量的测试文件有用，一旦用在A与B上就会失败，真叫人百思不得其解。

姿势一：

awk -F, '{print $1}' A >keywords.txt
cat keywords.txt B.txt | sort | uniq -d

#先从A.txt种取出关键词，然后与B.txt一起打开，用sort排序，uniq -d 取出重复的行

姿势二：

awk -F, '{print $1}' A >keywords.txt
#照例先取出关键词

comm -1 -2 keywords.txt B.txt
#利用comm命令，显示两个文件都存在的行

姿势三：

awk -F, '{print $1}' A >keywords.txt
for i in `cat keywords.txt`
do
  A=`egrep -c "^$i$" B.txt`
  if [ $A != 0 ]
  then
    echo $i >>重复关键词.txt
  fi
done

#这种姿势就稍微复杂点
#首先取出关键词，然后利用for循环逐个去B.txt里面匹配（注意正则写法^$i$），如果匹配到的结果数不为0，说明这个关键词是重复的，然后输出
#这种方法的优点是稳妥，缺点是效率太TM低了，90万个词逐一与400万词匹配，shell默认又没有多线程，耗时太长。

姿势四：

awk -F, '{print $1}' A >keywords.txt
cat keywords.txt B.txt | awk '!a[$1]++'

#这个方法的原理其实我不太懂，awk命令实在太强大太高深了，但是这种方法又简洁又快速

其实还有一种grep -v 、grep -f 的方法，但是我没有试过，所以不在这里列出了。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

Shell逐行读取文件的4种方法

在Linux中有很多方法逐行读取一个文件的方法,其中最常用的就是下面的脚本里的方法,而且是效率最高,使用最多的方法.为了给大家一个直观的感受,我们将通过生成一个大的文件的方式来检验各种方法的执行效率. 方法1:while循环中执行效率最高,最常用的方法. 复制代码代码如下: function while_read_LINE_bottm(){ While read LINE do echo $LINE done < $FILENAME } 注释:我习惯把这种方式叫做read釜底抽薪,因为这种方
shell中删除文件中重复行的方法

Linux下文本处理工具很丰富很强大,例如这样一个文件: 复制代码代码如下: cat log www.jb51.net 192.168.1.1www.jb51.net 192.168.1.1www.jb51.net 192.168.1.2ffffffffffffffffffffffffffffffffffffeeeeeeeeeeeeeeeeeeeefffffffffffffffffffeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeggggggggggggggg
shell脚本中执行时提示“没有那个文件或目录”的解决办法

出现bad interpreter:No such file or directory的原因,是文件格式的问题.这个文件是在Windows下编写的.换行的方式与Unix不一样,但是在vim下面如果不Set一下又完全看不出来. 问题分析:1.将windows 下编写好的SHELL文件,传到linux下执行,提示出错.2.出错信息:bad interpreter: 没有那个文件或目录. 问题原因:因为操作系统是windows,在windows下编辑的脚本,所以有可能有不可见字符.脚本文件是DOS格式
shell去掉文件中空行(空白行)的方法详解

本文详细介绍了使用shell去除文件中的空行的方法,学习下sed.awk.shell文件检测的方法,有需要的朋友可以作个参考. 本节内容:shell去掉文件中空行 1,shell 去掉文件中的空行复制代码代码如下: cat filename | sed -e '/^$/d' > filename 2,保留最新的9个文件,其它的文件删除的命令语句复制代码代码如下: ls -t | awk '{if(NR>9){print $0}}' |xargs rm -f 附,shell中的特殊变量
判断文件是否存在的shell脚本代码

实现代码一. #!/bin/sh # 判断文件是否存在 # link:www.jb51.net # date:2013/2/28 myPath="/var/log/httpd/" myFile="/var /log/httpd/access.log" # 这里的-x 参数判断$myPath是否存在并且是否具有可执行权限 if [ ! -x "$myPath"]; then mkdir "$myPath" fi # 这里的-d
Shell中调用、引用、包含另一个脚本文件的三种方法

脚本 first (测试示例1) first#!/bin/bashecho 'your are in first file' 方法一:使用source #!/bin/bashecho 'your are in second file'source first 方法二:使用. #!/bin/bashecho 'your are in second file'. first 方法三:使用sh#!/bin/bashecho 'your are in second file'sh first
Shell脚本统计文件行数的8种方法

获取单个文件行数文件:test1.sh 行数:20 方法一复制代码代码如下: awk '{print NR}' test1.sh|tail -n1 如图所示: 方法二复制代码代码如下: awk 'END{print NR}' test1.sh 如图所示: 方法三复制代码代码如下: grep -n "" test1.sh|awk -F: '{print '}|tail -n1 如图所示: 方法四复制代码代码如下: sed -n '$=' test1.sh 如图所示: 方
Shell获取文件的文件名和扩展名的例子

basename example.tar.gz .tar.gz # => example FILE="example.tar.gz" echo "${FILE%%.*}" # => example echo "${FILE%.*}" # => example.tar echo "${FILE#*.}" # => tar.gz echo "${FILE##*.}" # => gz
shell判断文件,目录是否存在或者具有权限的代码

核心代码 #!/bin/sh myPath="/var/log/httpd/" myFile="/var /log/httpd/access.log" #这里的-x 参数判断$myPath是否存在并且是否具有可执行权限 if [ ! -x "$myPath"]; then mkdir "$myPath" fi #这里的-d 参数判断$myPath是否存在 if [ ! -d "$myPath"]; then
shell按行读取文件的3种方法

方法有很多,下面写出三种方法:写法一: 复制代码代码如下: #!/bin/bashwhile read linedoecho $linedone < filename(待读取的文件) 写法二: 复制代码代码如下: #!/bin/bashcat filename(待读取的文件) | while read linedoecho $linedone 写法三: 复制代码代码如下: for line in `cat filename(待读取的文件)`doecho $linedone 说明:for逐行

shell两个文件去重的多种姿势

相关推荐

随机推荐