java中文分词之正向最大匹配法实例代码

2025-02-20 16:48:41

前言

基于词典的正向最大匹配算法（最长词优先匹配），算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。

所谓词典正向最大匹配就是将一段字符串进行分隔，其中分隔的长度有限制，然后将分隔的子字符串与字典中的词进行匹配，如果匹配成功则进行下一轮匹配，直到所有字符串处理完毕，否则将子字符串从末尾去除一个字，再进行匹配，如此反复。

算法流程图如下：

下面给大家主要讲一下中文分词里面算法的简单实现，废话不多说了，现在先上代码

示例代码

package com; 

import java.util.ArrayList;
import java.util.List; 

public class Segmentation1 {
 private List<String> dictionary = new ArrayList<String>();
 private String request = "北京大学生前来应聘"; 

 public void setDictionary() {
 dictionary.add("北京");
 dictionary.add("北京大学");
 dictionary.add("大学");
 dictionary.add("大学生");
 dictionary.add("生前");
 dictionary.add("前来");
 dictionary.add("应聘");
 } 

 public String leftMax() {
 String response = "";
 String s = "";
 for(int i=0; i<request.length(); i++) {
  s += request.charAt(i);
  if(isIn(s, dictionary) && aheadCount(s, dictionary)==1) {
  response += (s + "/");
  s = "";
  } else if(aheadCount(s, dictionary) > 0) { 

  } else {
  response += (s + "/");
  s = "";
  }
 }
 return response;
 } 

 private boolean isIn(String s, List<String> list) {
 for(int i=0; i<list.size(); i++) {
  if(s.equals(list.get(i))) return true;
 }
 return false;
 } 

 private int aheadCount(String s, List<String> list) {
 int count = 0;
 for(int i=0; i<list.size(); i++) {
  if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(0, s.length())))) count ++;
 }
 return count;
 } 

 public static void main(String[] args) {
 Segmentation1 seg = new Segmentation1();
 seg.setDictionary();
 String response1 = seg.leftMax();
 System.out.println(response1);
 }
}

可以看到运行结果是：北京大学/生前/来/应聘/

算法的核心就是从前往后搜索，然后找到最长的字典分词。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

Java实现的最大匹配分词算法详解

本文实例讲述了Java实现的最大匹配分词算法.分享给大家供大家参考,具体如下: 全文检索有两个重要的过程: 1分词 2倒排索引我们先看分词算法目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词. 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词.这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,P(AB)表示AB相邻出现的概率,P(A)表示A在这篇文章中的频度,P(B)表示B在这篇文章中的频度.用概率分词的好
java中文分词之正向最大匹配法实例代码

前言基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典. 所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔的长度有限制,然后将分隔的子字符串与字典中的词进行匹配,如果匹配成功则进行下一轮匹配,直到所有字符串处理完毕,否则将子字符串从末尾去除一个字,再进行匹配,如此反复. 算法流程图如下: 下面给大家主要讲一下中文分词里面算法的简单实现,废话不多说了,现在先上代码示例代码 package com; import java.util
Java文件上传下载、邮件收发实例代码

文件上传下载前台: 1. 提交方式:post 2. 表单中有文件上传的表单项: <input type="file" /> 3. 指定表单类型: 默认类型:enctype="application/x-www-form-urlencoded" 文件上传类型:multipart/form-data FileUpload 文件上传功能开发中比较常用,apache也提供了文件上传组件! FileUpload组件: 1. 下载源码 2. 项目中引入jar文件
Java web含验证码及权限登录实例代码

所用到的开发工具为myeclipse10,MySQL数据库. 首先,在myeclipse中新建一个Java web项目. 项目的结构: 数据库结构: 下面将各个包中的代码粘贴出来. com.ningmeng.dao包 package com.ningmeng.dao; import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLExcept
Java编程实现轨迹压缩算法开放窗口实例代码

轨迹压缩算法场景描述给定一个GPS数据记录文件,每条记录包含经度和维度两个坐标字段,根据距离阈值压缩记录,将过滤后的所有记录的经纬度坐标构成一条轨迹算法描述这种算法的用处还是相当广泛的. 轨迹压缩算法分为两大类,分别是无损压缩和有损压缩,无损压缩算法主要包括哈夫曼编码,有损压缩算法又分为批处理方式和在线数据压缩方式,其中批处理方式又包括DP(Douglas-Peucker)算法.TD-TR(Top-Down Time-Ratio)算法和Bellman算法,在线数据压缩方式又包括滑动窗口.
Java 数据类型及类型转换的互相转换实例代码

一.基本数据类型 java的数据类型可以分为两大类:基本类型和复合类型. 基本类型:整型(int,short,long,byte).浮点型(float,double).布尔型(boolean).和字符型(char) 复合类型:数组,类,接口 1.整型各种整型数据所占空间及数的范围数据类型所占内存空间/位数的范围 byte 8 -128~127 short 16 -32768~32767 int 32 -2^31~2^31-1 long 64 -2^63~2^63-1 整型以补码的形式存放
java 实现计数排序和桶排序实例代码

java 实现计数排序和桶排序实例代码目录比较和非比较的区别常见的快速排序.归并排序.堆排序.冒泡排序等属于比较排序.在排序的最终结果里,元素之间的次序依赖于它们之间的比较.每个数都必须和其他数进行比较,才能确定自己的位置. 在冒泡排序之类的排序中,问题规模为n,又因为需要比较n次,所以平均时间复杂度为O(n²).在归并排序.快速排序之类的排序中,问题规模通过分治法消减为logN次,所以时间复杂度平均 O(nlogn) . 比较排序的优势是,适用于各种规模的数据,也不在乎数据的分布
java读取http请求中的body实例代码

在http请求中,有Header和Body之分,读取header使用request.getHeader("..."); 读取Body使用request.getReader(),但getReader获取的是BufferedReader,需要把它转换成字符串, 下面是转换的方法. public static String getBodyString(BufferedReader br) { String inputLine; String str = ""; try {
java 数值类型分秒时间格式化的实例代码

java 数值类型分秒时间格式化的实例代码 java 实例代码: import java.util.concurrent.TimeUnit; public class DateUtils { private static final String[] UNIT_DESC = new String[]{"天", "小时", "分钟", "秒"}; /** * 格式化持续时间<br/> * 将持续时间,格式化为 xx天
java多线程编程技术详解和实例代码

java多线程编程技术详解和实例代码 1. Java和他的API都可以使用并发. 可以指定程序包含不同的执行线程,每个线程都具有自己的方法调用堆栈和程序计数器,使得线程在与其他线程并发地执行能够共享程序范围内的资源,比如共享内存,这种能力被称为多线程编程(multithreading),在核心的C和C++语言中并不具备这种能力,尽管他们影响了JAVA的设计. 2. 线程的生命周期新线程的生命周期从"新生"状态开始.程序启动线程前,线程一直是"新生"状态:
使用Java和WebSocket实现网页聊天室实例代码

在没介绍正文之前,先给大家介绍下websocket的背景和原理: 背景在浏览器中通过http仅能实现单向的通信,comet可以一定程度上模拟双向通信,但效率较低,并需要服务器有较好的支持; flash中的socket和xmlsocket可以实现真正的双向通信,通过 flex ajax bridge,可以在javascript中使用这两项功能. 可以预见,如果websocket一旦在浏览器中得到实现,将会替代上面两项技术,得到广泛的使用.面对这种状况,HTML5定义了WebSocket协议,能更

java中文分词之正向最大匹配法实例代码

相关推荐

随机推荐