Java实现TFIDF算法代码分享

算法介绍

概念

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。

原理

在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF*IDF,TF词频(TermFrequency),IDF反文档频率(InverseDocumentFrequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(TermFrequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。(另一说:IDF反文档频率(InverseDocumentFrequency)是指果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。

计算公式比较简单,如下:

预处理

由于需要处理的候选词大约后3w+,并且语料文档数有1w+,直接挨个文本遍历的话很耗时,每个词处理时间都要一分钟以上。

为了缩短时间,首先进行分词,一个词输出为一行方便统计,分词工具选择的是HanLp。

然后,将一个领域的文档合并到一个文件中,并用“$$$”标识符分割,方便记录文档数。

下面是选择的领域语料(PATH目录下):

代码实现

package edu.heu.lawsoutput;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
/**
 * @ClassName: TfIdf
 * @Description: TODO
 * @author LJH
 * @date 2017年11月12日 下午3:55:15
 */
public class TfIdf {
	static final String PATH = "E:\\corpus";
	// 语料库路径
	public static void main(String[] args) throws Exception {
		String test = "离退休人员";
		// 要计算的候选词
		computeTFIDF(PATH, test);
	}
	/**
  * @param @param path 语料路经
  * @param @param word 候选词
  * @param @throws Exception
  * @return void
  */
	static void computeTFIDF(String path, String word) throws Exception {
		File fileDir = new File(path);
		File[] files = fileDir.listFiles();
		// 每个领域出现候选词的文档数
		Map<String, Integer> containsKeyMap = new HashMap<>();
		// 每个领域的总文档数
		Map<String, Integer> totalDocMap = new HashMap<>();
		// TF = 候选词出现次数/总词数
		Map<String, double> tfMap = new HashMap<>();
		// scan files
		for (File f : files) {
			// 候选词词频
			double termFrequency = 0;
			// 文本总词数
			double totalTerm = 0;
			// 包含候选词的文档数
			int containsKeyDoc = 0;
			// 词频文档计数
			int totalCount = 0;
			int fileCount = 0;
			// 标记文件中是否出现候选词
			Boolean flag = false;
			FileReader fr = new FileReader(f);
			BufferedReader br = new BufferedReader(fr);
			String s = "";
			// 计算词频和总词数
			while ((s = br.readLine()) != null) {
				if (s.equals(word)) {
					termFrequency++;
					flag = true;
				}
				// 文件标识符
				if (s.equals("$$$")) {
					if (flag) {
						containsKeyDoc++;
					}
					fileCount++;
					flag = false;
				}
				totalCount++;
			}
			// 减去文件标识符的数量得到总词数
			totalTerm += totalCount - fileCount;
			br.close();
			// key都为领域的名字
			containsKeyMap.put(f.getName(), containsKeyDoc);
			totalDocMap.put(f.getName(), fileCount);
			tfMap.put(f.getName(), (double) termFrequency / totalTerm);
			System.out.println("----------" + f.getName() + "----------");
			System.out.println("该领域文档数:" + fileCount);
			System.out.println("候选词出现词数:" + termFrequency);
			System.out.println("总词数:" + totalTerm);
			System.out.println("出现候选词文档总数:" + containsKeyDoc);
			System.out.println();
		}
		//计算TF*IDF
		for (File f : files) {
			// 其他领域包含候选词文档数
			int otherContainsKeyDoc = 0;
			// 其他领域文档总数
			int otherTotalDoc = 0;
			double idf = 0;
			double tfidf = 0;
			System.out.println("~~~~~" + f.getName() + "~~~~~");
			Set<Map.Entry<String, Integer>> containsKeyset = containsKeyMap.entrySet();
			Set<Map.Entry<String, Integer>> totalDocset = totalDocMap.entrySet();
			Set<Map.Entry<String, double>> tfSet = tfMap.entrySet();
			// 计算其他领域包含候选词文档数
			for (Map.Entry<String, Integer> entry : containsKeyset) {
				if (!entry.getKey().equals(f.getName())) {
					otherContainsKeyDoc += entry.getValue();
				}
			}
			// 计算其他领域文档总数
			for (Map.Entry<String, Integer> entry : totalDocset) {
				if (!entry.getKey().equals(f.getName())) {
					otherTotalDoc += entry.getValue();
				}
			}
			// 计算idf
			idf = log((float) otherTotalDoc / (otherContainsKeyDoc + 1), 2);
			// 计算tf*idf并输出
			for (Map.Entry<String, double> entry : tfSet) {
				if (entry.getKey().equals(f.getName())) {
					tfidf = (double) entry.getValue() * idf;
					System.out.println("tfidf:" + tfidf);
				}
			}
		}
	}
	static float log(float value, float base) {
		return (float) (Math.log(value) / Math.log(base));
	}
}

运行结果

测试词为“离退休人员”,中间结果如下:

最终结果:

结论

可以看到“离退休人员”在养老保险和社保领域,tfidf值比较高,可以作为判断是否为领域概念的一个依据。

当然TF-IDF算法虽然很经典,但还是有许多不足,不能单独依赖其结果做出判断。

以上就是本文关于Java实现TFIDF算法代码分享的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:

Java 蒙特卡洛算法求圆周率近似值实例详解

java算法实现红黑树完整代码示例

java实现的各种排序算法代码示例

如有不足之处,欢迎留言指出。

(0)

相关推荐

  • TF-IDF算法解析与Python实现方法详解

    TF-IDF(term frequency–inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术.比较容易理解的一个应用场景是当我们手头有一些文章时,我们希望计算机能够自动地进行关键词提取.而TF-IDF就是可以帮我们完成这项任务的一种统计方法.它能够用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度. 在一份给定的文件里,词频 (term frequency, T

  • TF-IDF与余弦相似性的应用(一) 自动提取关键词

    TF-IDF与余弦相似性的应用(一):自动提取关键词 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题. 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘.文本处理.信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果.它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法.

  • TF-IDF理解及其Java实现代码实例

    TF-IDF 前言 前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了. TF-IDF理解 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF词频(T

  • Java实现TFIDF算法代码分享

    算法介绍 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降.TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级.除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评

  • Java 常见排序算法代码分享

    目录 1. 冒泡排序 2. 选择排序 3. 插入排序 4. 快速排序 5. 归并排序 6. 希尔排序 6.1 希尔-冒泡排序(慢) 6.2 希尔-插入排序(快) 7. 堆排序 8. 计数排序 9. 桶排序 10. 基数排序 11. 使用集合或 API 11.1 优先队列 11.2 Java API 汇总: 1. 冒泡排序 每轮循环确定最值: public void bubbleSort(int[] nums){     int temp;     boolean isSort = false;

  • javascript中实现兼容JAVA的hashCode算法代码分享

    在java中一个hashCode算法,可以用来计算一个字符串的hash值,今天一个朋友突然问俺能不能在js中计算hashCode,要求和java的hashCode计算结果一样. 对于java的hashCode,以前到现在也一直没有了解过其算法,不过猜想应该也不会太难,于是现在java中写了这段代码进行测试: 运行结果:899755 按下Ctrl键点击hashCode方法名跟进去看了下其算法,发现是很简单的几句代码,如下所示: 复制代码 代码如下: public int hashCode() {

  • Java语言实现基数排序代码分享

    算法思想:依次按个位.十位...来排序,每一个pos都有分配过程和收集过程,array[i][0]记录第i行数据的个数. package sorting; /** * 基数排序 * 平均O(d(n+r)),最好O(d(n+r)),最坏O(d(n+r));空间复杂度O(n+r);稳定;较复杂 * d为位数,r为分配后链表的个数 * @author zeng * */ public class RadixSort { //pos=1表示个位,pos=2表示十位 public static int g

  • Java编程泛型限定代码分享

    泛型 一般 出现在集合中,迭代器中 也会出现! 泛型 是为了 提高代码的 安全性. 泛型 确保数据类型的唯一性. 在我们常用的容器中, 越是单一越好处理啊! 泛型的限定: ? 是通配符 指代 任意类型 泛型的限定上限: <? extends E> 接受 E 或者 E 的子类型. 泛型的限定下限: <?  super   E>  接收  E 或者 E 的父类. 泛型的限定上限 (定义父类 填装子类 类型!) 下面我们看看具体代码示例 package newFeatures8; imp

  • Java反射机制实例代码分享

    本文旨在对Java反射机制有一个全面的介绍,希望通过本文,大家会对Java反射的相关内容有一个全面的了解. 阅读本文之前,大家可先行参阅<重新理解Java泛型>. 前言 Java反射机制是一个非常强大的功能,在很多大型项目比如Spring, Mybatis都可以看见反射的身影.通过反射机制我们可以在运行期间获取对象的类型信息,利用这一特性我们可以实现工厂模式和代理模式等设计模式,同时也可以解决Java泛型擦除等令人苦恼的问题.本文我们就从实际应用的角度出发,来应用一下Java的反射机制. 反射

  • java图片添加水印实例代码分享

    本文为大家介绍了java图片添加水印实例代码,java实现水印还是非常方便的,水印可以是图片或者文字,具体内容如下 package michael.io.image; import java.awt.AlphaComposite; import java.awt.Graphics2D; import java.awt.Image; import java.awt.RenderingHints; import java.awt.image.BufferedImage; import java.io

  • Java 二分法检索算法代码实现详解

    一,二分法检索算法介绍 二分法检索(binary search)又称折半检索,二分法检索的基本思想是设字典中的元素从小到大有序地存放在数组(array)中.是最常用的搜索算法之一,这主要是由于其搜索时间短. 二,二分法检索算法思路 这种搜索使用分而治之方法,并且需要事先对数据集进行排序. 它将输入集合分为相等的两半,并且每次迭代都将目标元素与中间元素进行比较. 如果找到该元素,则搜索结束.否则,我们根据目标元素是小于还是大于中间元素,通过划分并选择适当的数组分区来继续寻找元素. 这就是为什么对B

  • java实现sunday算法示例分享

    字符串匹配查找算法中,最著名的两个是KMP算法(Knuth-Morris-Pratt)和BM算法(Boyer-Moore).两个算法在最坏情况下均具有线性的查找时间.但是在实用上,KMP算法并不比最简单的C库函数strstr()快多少,而BM算法则往往比KMP算法快上3-5倍(未亲身实践).但是BM算法还不是最快的算法,这里介绍一种比BM算法更快一些的查找算法Sunday算法. Sunday算法的思想和BM算法中的坏字符思想非常类似.差别只是在于Sunday算法在匹配失败之后,是取目标串中当前和

  • java制作android 日历代码分享

    代码很简单,就不多废话了 复制代码 代码如下: //读取日历事件     public static void getCalendarInfo(Activity activity,String tag){         String[] projection = new String[]{CalendarContract.Events._ID,CalendarContract.Events.TITLE};         ContentResolver cr = activity.getCon

随机推荐