用vbscript实现从文本文件中删除所有重复行的代码

问:
您好,脚本专家!如何从文本文件中删除所有重复行?

-- SW

答:
您好,SW。您知道,成为一名脚本专家便意味着开始永无止境地寻找给定问题的最终解决方案。(或者至少在我们的经理问为什么我们似乎从未真正完成什么时,我们是这么告诉他的:“老板,永无止境的寻找过程需要时间!”)这就是为什么我们很高兴看到您的问题的原因。不久前 我们回答了一个关于从文本文件中删除重复名字的类似问题。我们想到的解决方案十分简单而且效果不错;只是我们不确定那是最佳解决方案。现在,很感谢您的问题,我们可以再次尝试解决这一问题。至于此解决方案是否比我们之前提供的更好/更快/更方便,还是由您来决定吧。

首先,假定您有一个文本文件,其中每一行都表示一条单独的记录。这似乎不太可能,但也许您的文件类似如下:

This is one of the lines in the text file.
This is one of the lines in the text file.
This is another line in the text file.
This is one of the lines in the text file.
This is yet another line in the text file.
This is another line in the text file.
This is another line in the text file.
This is one of the lines in the text file.

您需要一个可以除去所有重复行并提供类似以下输出的脚本:

This is one of the lines in the text file.
This is another line in the text file.
This is yet another line in the text file.

SW,您找对地方了:

Const adOpenStatic = 3
Const adLockOptimistic = 3
Const adCmdText = &H0001

Set objConnection = CreateObject("ADODB.Connection")
Set objRecordSet = CreateObject("ADODB.Recordset")

strPathToTextFile = "C:\Scripts\"
strFile = "Test.txt"

objConnection.Open "Provider=Microsoft.Jet.OLEDB.4.0;" & _
      "Data Source=" & strPathtoTextFile & ";" & _
          "Extended Properties=""text;HDR=NO;FMT=Delimited"""

objRecordSet.Open "Select DISTINCT * FROM " & strFile, _
    objConnection, adOpenStatic, adLockOptimistic, adCmdText

Do Until objRecordSet.EOF
    Wscript.Echo objRecordSet.Fields.Item(0).Value   
    objRecordSet.MoveNext
Loop

我们发现此脚本有些有趣,因为我们使用“ActiveX 数据对象”(ADO) 并将此文本文件当作数据库处理。我们不会花费过多的时间详细说明如何将文本文件当作数据库处理;如果您想了解有关于此的详细信息,我们的脚本诊所 专栏对此主题进行了深入阐述。现在,要说明的只是我们将使用文本文件 C:\Scripts\Test.txt,我们通过为变量 strPathToTextFile 和 strFile 赋予相应值来表示:

strPathToTextFile = "C:\Scripts\"
strFile = "Test.txt"

那么,这如何能让我们除去重复行呢?是这样的,有一种称为 Select DISTINCT 的数据库查询;利用 Select DISTINCT 可以选择表格中所有不同的(或唯一的)记录。假设您有一个简单的数据库,其中有以下记录:

Red
Red
Blue
Red

如果使用 Select DISTINCT 查询,您将得到一个只包括唯一记录的记录集:

Red
Blue

毫无疑问,您会想:“哇!返回唯一记录与删除重复记录简直异曲同工。”我们承认确实如此 – 嗯,请等一下:您的想法绝对正确。我们的文本文件构建得就像一个数据库表,文本文件中的每行都表示一条记录中的一个字段。如果对此文本文件运行 Select DISTINCT 查询,我们将只得到唯一的行。事实上,我们将得到如下所示的记录集:

This is one of the lines in the text file.
This is another line in the text file.
This is yet another line in the text file.

这刚好就是我们希望返回的信息。您为我们指出了这一点,这很好!

检索记录集后,我们再使用以下代码将唯一的行回显到屏幕:

Do Until objRecordset.EOF
    Wscript.Echo objRecordset.Fields.Item(0).Value   
    objRecordset.MoveNext
Loop

如果我们愿意,也可以使用 FileSystemObject 打开文本文件,然后仅用唯一的行替换现有内容;此种方法与从文本文件中删除所有重复行效果相同。(如果我们能使用某种 Update 查询执行此操作,效果会很好,但处理文本文件时,ADO 却是只读的。)

那么,这是从文本文件删除重复项(无论是姓名还是整个行)的最终结论吗?唉,谁知道:毕竟,永无止境的寻找过程需要时间!(实际上,我们发现这只需要大约 2 到 3 天。然后,我们便开始觉得无聊,又继续做其他事情。)

(0)

相关推荐

  • ASP.NET DataTable去掉重复行的2种方法

    第一种,使用Linq查询表达式,code如下 DataTable testtable = new DataTable(); testtable.Columns.Add("ID"); testtable.Columns.Add("ProductName"); testtable.Rows.Add("1", "1"); testtable.Rows.Add("1", "1"); testta

  • 批处理实现过滤重复行

    a.txt内容如下: 123 456 789 123 123 789 获取重复的行,并且重复的行只保留一次,处理后得到b.txt内容如下: 123 789 方法1: @echo off REM 缺点1:无法处理特别大的文件 REM 缺点2:需要使用文件中没有出现的字符来标记变量(本例中使用的是下划线) setlocal for /f "delims=" %%i in (a.txt) do ( set /a _%%i+=1 ) (for /f "tokens=1-2 delim

  • 批处理 删除重复行的代码

    复制代码 代码如下: @echo off :: 删除重复的行,但不能保留空行 :: 对不符合变量命名规则.变量个数超过限制的文本都无法正确处理 :: (echo 清除重复行后的文件内容:& echo.)>str_.txt for /f "delims=" %%i in (test.txt) do ( if not defined %%i set %%i=A & echo %%i>>str_.txt) start str_.txt

  • python统计一个文本中重复行数的方法

    本文实例讲述了python统计一个文本中重复行数的方法.分享给大家供大家参考.具体实现方法如下: 比如有下面一个文件 2 3 1 2 我们期望得到 2,2 3,1 1,1 解决问题的思路: 出现的文本作为key, 出现的数目作为value,然后按照value排除后输出 最好按照value从大到小输出出来,可以参照: 复制代码 代码如下: in recent Python 2.7, we have new OrderedDict type, which remembers the order in

  • php删除文本文件中重复行的方法

    本文实例讲述了php删除文本文件中重复行的方法.分享给大家供大家参考.具体分析如下: 这个php函数用来删除文件中的重复行,还可以指定是否忽略大小写,和指定换行符 /** * RemoveDuplicatedLines * This function removes all duplicated lines of the given text file. * * @param string * @param bool * @return string */ function RemoveDupl

  • 用vbscript实现从文本文件中删除所有重复行的代码

    问: 您好,脚本专家!如何从文本文件中删除所有重复行? -- SW 答: 您好,SW.您知道,成为一名脚本专家便意味着开始永无止境地寻找给定问题的最终解决方案.(或者至少在我们的经理问为什么我们似乎从未真正完成什么时,我们是这么告诉他的:"老板,永无止境的寻找过程需要时间!")这就是为什么我们很高兴看到您的问题的原因.不久前 我们回答了一个关于从文本文件中删除重复名字的类似问题.我们想到的解决方案十分简单而且效果不错:只是我们不确定那是最佳解决方案.现在,很感谢您的问题,我们可以再次尝

  • 易语言删除数组重复成员的代码

    删除数组重复成员的代码 .版本 2 .支持库 spec .程序集 窗口程序集1 .程序集变量 数组, 整数型, , "0" .子程序 __启动窗口_创建完毕 置随机数种子 () .计次循环首 (10, ) 加入成员 (数组, 取随机数 (1, 5)) .计次循环尾 () 调试输出 (数组) .子程序 _去重按钮_被单击 .局部变量 计次1, 整数型 .局部变量 计次2, 整数型 .计次循环首 (取数组成员数 (数组), 计次1) .如果真 (计次1 > 取数组成员数 (数组))

  • 用vbscript实现在文本文件中搜索两个项

    问: 您好,脚本专家! 您曾经介绍过如何在文本文件中搜索单个词或短语,但如何在文本文件中搜索两个短语呢? 我想知道文件中是否包含 Windows 2000 或 Windows XP. -- JR 答: 您好,JR.您知道,让脚本专家去做一件事情就已经够困难的了:可见让他们去做两件事情几乎是不可能的. 但我们要告诉您的是: 只要您不介意我们向您介绍一种简单的方法来在文本文件中搜索多个项,我们就会向您介绍如何在文本文件中搜索多个项. 注意. 为什么称之为"简单的方法"呢? 我们不打算费神设

  • c#中合并DataTable重复行的值

    复制代码 代码如下: //DataTable数据添加            Hashtable ht = new Hashtable();            DataTable dt = new DataTable();            DataColumn dc = new DataColumn("id");            dt.Columns.Add(dc);            dc = new DataColumn("name");   

  • 使用批处理删除HOSTS中特定内容的行的代码

    Q:用bat批处理来删除或者修改hosts中指定的条目,例如对于127.0.0.1 localhosts,能否把hosts里面带有local的记录全都删掉或者改掉? A: 复制代码 代码如下: cd /d %windir%\system32\drivers\etc  rem 先删除hosts.bak防止重命名失败  del hosts.bak  ren hosts hosts.bak  for /f "eol=# tokens=1,2" %%i in (hosts.bak) do ca

  • 聊聊PHP中删除字符串的逗号和尾部斜杠的方法

    正如标题所述,本文将给大家通过两个示例来介绍PHP删除字符串中的逗号以及尾部斜杠的方法,感兴趣的朋友咱们一起继续往下看吧~ 下面我们通过具体的实例分别讲解: 第一个示例的要求则是"编写一个PHP脚本以从指定的数字字符串中删除逗号". PHP示例代码如下: $str1 = "2,345.12"; $x = str_replace( ',', '', $str1); if( is_numeric($x)) { echo $x." "; } 运行结果如

  • MySQL 如何查找删除重复行

    目录 一.如何查找重复行 二.如何删除重复行 三.如何查找多列上的重复 四.错误的查询语句 五.几种正确的方法 一.如何查找重复行 第一步是定义什么样的行才是重复行.多数情况下很简单:它们某一列具有相同的值.本文采用这一定义,或许你对"重复"的定义比这复杂,你需要对sql做些修改. 本文要用到的数据样本: create table test(id int not null primary key, day date not null); insert into test(id, day

  • Java基础之删除文本文件中特定行的内容

    一.问题的产生 基于I/O流编写的图书馆管理系统 在最近使用I/O流写图书馆管理系统中管理员对图书和用户的管理操作时,遇到了需要删除特定图书和用户的操作,在查询资料和询问老师后得知I/O流中没有可以直接删除单独行的方法. 二.解决思路 同时也为我提供了新的思路:将整个文件中的全部内容读取出来,然后通过集合将每一行单独存放,通过查找到集合内特定的内容后,将该行内容删除,此时list集合会自动将后面的内容填补上来,再重新写入的时候不会出现空行的情况.这时再重新遍历一次该集合,将现在的集合内容写入文件

随机推荐