asp 的中文分词
<%
a="日本是中国的一个省|我们美丽中国的张家界!"
b="中国,我们,张家界,日本,美国,苹果"
b=split(b,",")
a=split(a,"|")
for k=0 to ubound(a)
s=""
n=""
for i=0 to ubound(b)
if instr(a(k),b(i))>0 then
s=s & instr(a(k),b(i)) & "," &instr(a(k),b(i))+len(b(i)) & ","
end if
next
s=left(s,len(s)-1)
if left(s,len(s)-1)<>len(a(k)) then s=s&","&len(a(k))+1
s=sort(split(s,","))
for i=0 to ubound(s)-1
n=n&mid(a(k),s(i),s(i+1)-s(i))& "|"
next
response.write n & "<br>"
next
function sort(ary)
ck=true
do Until ck = false
ck=false
For f = 0 to UBound(ary) -1
if clng(ary(f))>clng(ary(f+1)) then
v1=clng(ary(f))
v2=clng(ary(f+1))
ary(f)=v2
ary(f+1)=v1
ck=true
end if
next
loop
sort=ary
end function
%>
运行结果
日本|是|中国|的一个省|
我们|美丽|中国|的|张家界|!|
相关推荐
-
asp 的中文分词
<% a="日本是中国的一个省|我们美丽中国的张家界!" b="中国,我们,张家界,日本,美国,苹果" b=split(b,",") a=split(a,"|") for k=0 to ubound(a) s="" n="" for i=0 to ubound(b) if instr(a(k),b(i))>0 then s=s & instr(a(k),b(
-
asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取
比如标题是:腾讯QQ 2006 珊瑚虫集成版 v4.5b 分词后:[此资源关键词:腾讯 QQ 珊瑚虫 集成 ] 并且把关键词做成专题,可以为每个内容页面生成相关连接了 用CSW中文分词组件 下载:http://www.vgoogle.net/Product_CSW.asp 下面是我的ASP代码,比较粗浅,但实用 codecsw 得到输出的所有分词结果,用它的组建里面有个ASP文件,你一看就知道怎么得到分词结果了,这个不详细说了. 复制代码 代码如下: fcon=split(htm," "
-
Python中文分词工具之结巴分词用法实例总结【经典案例】
本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法>中已经有所描述.这里要说的内容与实际应用更贴近--从文本中读取中文信息,利用结巴分词工具进行分词及词性标注. 示例代码如下: #coding=utf-8 import jieba import jieba.posseg as pseg import time t1=time.time() f=open(&q
-
relaxlife.net发布一个自己开发的中文分词程序
近来因为工作原来,研究了一下中文分词,也就写了一个中文分词的程序.采用的是逆向最大匹配算算法. 使用示例: <%@ Page Language="C#"%> <%@ Import Namespace="Relaxlife.Xiaokui" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/
-
几款开源的中文分词系统
以下介绍4款开源中文分词系统. 1.ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词:词性标注:命名实体识别:新词识别:同时支持用户词典:支持繁体中文:支持GBK.UTF-8.UTF-7.UNICODE等多种编码
-
IKAnalyzer结合Lucene实现中文分词(示例讲解)
1.基本介绍 随着分词在信息检索领域应用的越来越广泛,分词这门技术对大家并不陌生.对于英文分词处理相对简单,经过拆分单词.排斥停止词.提取词干的过程基本就能实现英文分词,单对于中文分词而言,由于语义的复杂导致分词并没英文分词那么简单,一般都是通过相关的分词工具来实现,目前比较常用的有庖丁分词以及IKAnalyzer等.这里我们主要通过一个简单的Demo聊聊IKAnalyzer的基本使用.IKAnalyzer是一个开源的,基于java开发的分词工具包,它独立于Lucene项目,同时提供了Lucen
-
iOS中自带超强中文分词器的实现方法
说明 在处理文本的时候,第一步往往是将字符串进行分词,得到一个个关键词.苹果从很早就开始支持中文分词了,而且我们几乎人人每天都会用到,回想一下,在使用手机时,长按一段文字,往往会选中按住位置的一个词语,这里就是一个分词的绝佳用例,而iOS自带的分词效果非常棒,大家可以自己平常注意观察一下,基本对中文也有很好的效果.而这个功能也开放了API供开发者调用,我试用了一下,很好用! 效果如下: 实现 其实苹果给出了完整的API,想要全面了解的可以直接看文档:CFStringTokenizer Refer
-
使用Discuz关键词服务器实现PHP中文分词
不同于使用自己的服务器进行分词,Discuz!在线中文分词服务是基于API返回分词结果的.在项目中,我们只需要一个函数即可方便地进行分词.关键词提取.以下是根据Discuz!在线分词服务API写的函数,测试可正常运行: 复制代码 代码如下: /** * DZ在线中文分词 * @param $title string 进行分词的标题 * @param $content string 进行分词的内容 * @param $encode string API返回的数据编码 * @return arra
-
Python结巴中文分词工具使用过程中遇到的问题及解决方法
本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法.分享给大家供大家参考,具体如下: 结巴分词是Python语言中效果最好的分词工具,其功能包括:分词.词性标注.关键词抽取.支持用户词表等.这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下. 官网地址:https://github.com/fxsjy/jieba 1.安装. 按照官网上的说法,有三种安装方式, 第一种是全自动安装:easy_install jieba 或者 pip
-
Python中文分词实现方法(安装pymmseg)
本文实例讲述了Python中文分词实现方法.分享给大家供大家参考,具体如下: 在Python这pymmseg-cpp 还是十分方便的! 环境 ubuntu10.04 , python2.65 步骤: 1 下载mmseg-cpp的源代码 http://code.google.com/p/pymmseg-cpp/ 2 执行: tar -zxf pymmseg-cpp*.tar.gz //解压后得到pymmseg 目录 cd pymmseg\mmseg-cpp python build.py #生成
随机推荐
- 介绍PostgreSQL中的范围类型特性
- Linux备份及恢复及Linux文件权限详解
- ios百度地图的使用(普通定位、反地理编码)
- 一步步做自己的webinstall安装包
- PHP 导出Excel示例分享
- 告诉你什么是javascript的回调函数
- js以对象为索引的关联数组
- PHP利用imagick生成组合缩略图
- ThinkPHP实现更新数据实例详解(demo)
- 适用于手机端的jQuery图片滑块动画
- JQuery中getJSON的使用方法
- javascript获取文档坐标和视口坐标
- Android通过自定义Activity实现悬浮的Dialog详解
- Android 开发手机(三星)拍照应用照片旋转问题解决办法
- C#编程实现获取文件夹中所有文件的文件名
- Catalyst 4006交换机的配置实例WS-X4013引擎+ WS-X4232-L3路由模块
- java八大经典书籍 你看过几本?
- iOS 截取字符串中两个指定字符串中间的字符串方法
- django如何实现视图重定向
- Python socket模块实现的udp通信功能示例