批处理处理文本文件去重复实现代码

2025-02-06 11:34:13

最近需要将重复的内容去掉，所以就想到了使用bat或vbs实现，没想到网上已经有人写好了，测试也正好学习一下

使用方法：把文本拖到批处理上就行了。。。

@echo off
:: Code by oicu#lsxk.org 2007/11/29

rem chcp 437>nul
:: 看情况使用，utf-8编码的文件不能少了chcp命令，一般无需使用，
:: 但无论是否使用都不支持utf-16的文件。

:: pushd "%~dp1"
:: 如果不用pushd和popd，文件都要用绝对路径不能只用文件名。

if "%~1"=="" goto :EOF
set outputfile=%~dpn1_output%~x1

type nul>"%outputfile%"

echo Waiting...

for /F "tokens=1* delims=:" %%i in ('findstr /n .* "%~1"') do (
  findstr /B /E /C:"%%j" "%outputfile%">nul 2>&1 || echo.%%j>>"%outputfile%"
)

pause
start "" notepad "%outputfile%"
:: popd
exit

【在 oicu (Oh! I see you!) 的大作中提到: 】
: 去重复倒是行。。缺点就是慢和保留原有的空行了。

以下是vbs实现的代码

以下是这个脚本的源代码，复制后另存为vbs后缀的文件，双击即可运行。文件要放在C盘根下的Text.TXT，请特别注意：文本中一行一条记录，不要有空行。

Const adOpenStatic = 3
Const adLockOptimistic = 3
Const adCmdText = &H0001
Set objConnection = CreateObject("ADODB.Connection")
Set objRecordSet = CreateObject("ADODB.Recordset")

strPathToTextFile = "C:\"
strFile = "Test.txt"

objConnection.Open "Provider=Microsoft.Jet.OLEDB.4.0;" & _
   "Data Source=" & strPathtoTextFile & ";" & _
     "Extended Properties=""text;HDR=NO;FMT=Delimited"""

objRecordSet.Open "Select DISTINCT * FROM " & strFile, _
  objConnection, adOpenStatic, adLockOptimistic, adCmdText

Do Until objRecordSet.EOF

Set objFSO = CreateObject("Scripting.FileSystemObject")
   set Fp=objFSO.OpenTextFile("C:\test1.txt",8,True,0)
   fp.WriteLine objRecordSet.Fields.Item(0).Value
   fp.close
   set objFSO = nothing
   objRecordSet.MoveNext
Loop

批处理处理文本文件去重复实现代码

最近需要将重复的内容去掉,所以就想到了使用bat或vbs实现,没想到网上已经有人写好了,测试也正好学习一下使用方法:把文本拖到批处理上就行了... @echo off :: Code by oicu#lsxk.org 2007/11/29 rem chcp 437>nul :: 看情况使用,utf-8编码的文件不能少了chcp命令,一般无需使用, :: 但无论是否使用都不支持utf-16的文件. :: pushd "%~dp1" :: 如果不用pushd和popd,文件都要用绝
js字符串去重复id的实现代码

js去重复id String.prototype.repeatOpt = function () { var str = this + "",objStr = ""; for (var i = 0; i [Ctrl+A 全选注:如需引入外部Js需刷新才能执行] 我经常用的代码: js去除重复id function $Obj(objname){ return document.getElementById(objname); } //供使用者调用 function
python 高效去重复支持GB级别大文件的示例代码

如下所示: #coding=utf-8 import sys, re, os def getDictList(dict): regx = '''[\w\~`\!\@\#\$\%\^\&\*\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+''' with open(dict) as f: data = f.read() return re.findall(regx, data) def rmdp(dictList): return list(set(dictL
Python列表去重复项的N种方法(实例代码)

说明 Python语言中列表(List)与其他语言的数组(Array)类似,是一种有序的集合数据结构,Python List可支持各种数据类型,长度也可动态调整,与JS中的数组或Java ArrayList很接近.在实际编程中,经常会遇到数组或列表去掉重复项,保持成员唯一性.实现方式有多种,比如新建列表来存储非重复项,或者在原有基础上删除掉重复的项,也可以利用数据结构来达到去重复.具体哪一种方法更好呢?以下约20种方式都可以实现,我们可以通过这些来交流和学习. 方式 ## 1. 新建列表,如果新
oracle sql 去重复记录不用distinct如何实现

用distinct关键字只能过滤查询字段中所有记录相同的(记录集相同),而如果要指定一个字段却没有效果,另外distinct关键字会排序,效率很低 . select distinct name from t1 能消除重复记录,但只能取一个字段,现在要同时取id,name这2个字段的值. select distinct id,name from t1 可以取多个字段,但只能消除这2个字段值全部相同的记录所以用distinct达不到想要的效果,用group by 可以解决这个问题. 例如要显示的字
java正则表达式实现提取需要的字符并放入数组【ArrayList数组去重复功能】

本文实例讲述了java正则表达式实现提取需要的字符并放入数组.分享给大家供大家参考,具体如下: 这里演示Java正则表达式提取需要的字符并放入数组,即ArrayList数组去重复功能. 具体代码如下: package com.test.tool; import java.util.ArrayList; import java.util.HashSet; import java.util.regex.*; public class MatchTest { public static void ma
JS实现数组去重复值的方法示例

本文实例讲述了JS实现数组去重复值的方法.分享给大家供大家参考,具体如下: 运行效果图如下: 完整实例代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
pandas去重复行并分类汇总的实现方法

今天主要记录一下pandas去重复行以及如何分类汇总.以下面的数据帧作为一个例子: import pandas as pd data=pd.DataFrame({'产品':['A','A','A','A'],'数量':[50,50,30,30]}) pandas判断dataframe是否含有重复行数据用:df.duplicated() 第一次出现的数据为False.重复的数据行就被记录为True. 去掉重复行数据使用data.drop_duplicates(). 可以看到索引乱了,我们使用dat
Spring boot通过AOP防止API重复请求代码实例

这篇文章主要介绍了Spring boot通过AOP防止API重复请求代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下实现思路基于Spring Boot 2.x 自定义注解,用来标记是哪些API是需要监控是否重复请求通过Spring AOP来切入到Controller层,进行监控检验重复请求的Key:Token + ServletPath + SHA1RequestParas Token:用户登录时,生成的Token Servlet
Python教程pandas数据分析去重复值

目录加载数据 sample抽样函数指定需要更新的值 append直接添加 append函数用法根据某一列key值进行去重(key唯一) 加载数据首先,我们需要加载到所需要的数据,这里我们所需要的数据是同过sample函数采样过来的. import pandas as pd #这里说明一下,clean_beer.csv数据有两千多行数据 #所以从其中采样一部分,来进行演示,当然可以简单实用data.head()也可以做练习 data = pd.read_csv('clean_beer.cs

批处理处理文本文件去重复实现代码

相关推荐

随机推荐