asp 的中文分词

2025-04-05 21:12:02

<%
a="日本是中国的一个省|我们美丽中国的张家界！"
b="中国,我们,张家界,日本,美国,苹果"
b=split(b,",")
a=split(a,"|")
for k=0 to ubound(a)
s=""
n=""
for i=0 to ubound(b)
  if instr(a(k),b(i))>0 then
  s=s & instr(a(k),b(i)) & "," &instr(a(k),b(i))+len(b(i)) & ","
  end if
next
s=left(s,len(s)-1)
if left(s,len(s)-1)<>len(a(k)) then s=s&","&len(a(k))+1
s=sort(split(s,","))
for i=0 to ubound(s)-1
n=n&mid(a(k),s(i),s(i+1)-s(i))& "|"
next

response.write n & "<br>"
next

function sort(ary)
ck=true
do Until ck = false
ck=false
For f = 0 to UBound(ary) -1
  if clng(ary(f))>clng(ary(f+1)) then
   v1=clng(ary(f))
   v2=clng(ary(f+1))
   ary(f)=v2
   ary(f+1)=v1
   ck=true
  end if
next
loop
sort=ary
end function
%>

运行结果

日本|是|中国|的一个省|
我们|美丽|中国|的|张家界|！|

asp 的中文分词

<% a="日本是中国的一个省|我们美丽中国的张家界!" b="中国,我们,张家界,日本,美国,苹果" b=split(b,",") a=split(a,"|") for k=0 to ubound(a) s="" n="" for i=0 to ubound(b) if instr(a(k),b(i))>0 then s=s & instr(a(k),b(
asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取

比如标题是:腾讯QQ 2006 珊瑚虫集成版 v4.5b 分词后:[此资源关键词:腾讯 QQ 珊瑚虫集成 ] 并且把关键词做成专题,可以为每个内容页面生成相关连接了用CSW中文分词组件下载:http://www.vgoogle.net/Product_CSW.asp 下面是我的ASP代码,比较粗浅,但实用 codecsw 得到输出的所有分词结果,用它的组建里面有个ASP文件,你一看就知道怎么得到分词结果了,这个不详细说了. 复制代码代码如下: fcon=split(htm," "
Python中文分词工具之结巴分词用法实例总结【经典案例】

本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法>中已经有所描述.这里要说的内容与实际应用更贴近--从文本中读取中文信息,利用结巴分词工具进行分词及词性标注. 示例代码如下: #coding=utf-8 import jieba import jieba.posseg as pseg import time t1=time.time() f=open(&q
relaxlife.net发布一个自己开发的中文分词程序

近来因为工作原来,研究了一下中文分词,也就写了一个中文分词的程序.采用的是逆向最大匹配算算法. 使用示例: <%@ Page Language="C#"%> <%@ Import Namespace="Relaxlife.Xiaokui" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/
几款开源的中文分词系统

以下介绍4款开源中文分词系统. 1.ICTCLAS – 全球最受欢迎的汉语分词系统中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词:词性标注:命名实体识别:新词识别:同时支持用户词典:支持繁体中文:支持GBK.UTF-8.UTF-7.UNICODE等多种编码
IKAnalyzer结合Lucene实现中文分词(示例讲解)

1.基本介绍随着分词在信息检索领域应用的越来越广泛,分词这门技术对大家并不陌生.对于英文分词处理相对简单,经过拆分单词.排斥停止词.提取词干的过程基本就能实现英文分词,单对于中文分词而言,由于语义的复杂导致分词并没英文分词那么简单,一般都是通过相关的分词工具来实现,目前比较常用的有庖丁分词以及IKAnalyzer等.这里我们主要通过一个简单的Demo聊聊IKAnalyzer的基本使用.IKAnalyzer是一个开源的,基于java开发的分词工具包,它独立于Lucene项目,同时提供了Lucen
iOS中自带超强中文分词器的实现方法

说明在处理文本的时候,第一步往往是将字符串进行分词,得到一个个关键词.苹果从很早就开始支持中文分词了,而且我们几乎人人每天都会用到,回想一下,在使用手机时,长按一段文字,往往会选中按住位置的一个词语,这里就是一个分词的绝佳用例,而iOS自带的分词效果非常棒,大家可以自己平常注意观察一下,基本对中文也有很好的效果.而这个功能也开放了API供开发者调用,我试用了一下,很好用! 效果如下: 实现其实苹果给出了完整的API,想要全面了解的可以直接看文档:CFStringTokenizer Refer
使用Discuz关键词服务器实现PHP中文分词

不同于使用自己的服务器进行分词,Discuz!在线中文分词服务是基于API返回分词结果的.在项目中,我们只需要一个函数即可方便地进行分词.关键词提取.以下是根据Discuz!在线分词服务API写的函数,测试可正常运行: 复制代码代码如下: /** * DZ在线中文分词 * @param $title string 进行分词的标题 * @param $content string 进行分词的内容 * @param $encode string API返回的数据编码 * @return arra
Python结巴中文分词工具使用过程中遇到的问题及解决方法

本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法.分享给大家供大家参考,具体如下: 结巴分词是Python语言中效果最好的分词工具,其功能包括:分词.词性标注.关键词抽取.支持用户词表等.这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下. 官网地址:https://github.com/fxsjy/jieba 1.安装. 按照官网上的说法,有三种安装方式, 第一种是全自动安装:easy_install jieba 或者 pip
Python中文分词实现方法(安装pymmseg)

本文实例讲述了Python中文分词实现方法.分享给大家供大家参考,具体如下: 在Python这pymmseg-cpp 还是十分方便的! 环境 ubuntu10.04 , python2.65 步骤: 1 下载mmseg-cpp的源代码 http://code.google.com/p/pymmseg-cpp/ 2 执行: tar -zxf pymmseg-cpp*.tar.gz //解压后得到pymmseg 目录 cd pymmseg\mmseg-cpp python build.py #生成

asp 的中文分词

相关推荐

随机推荐