自动生成文章摘要[JavaScript 版本]

By dknt From bbs.blueidea.com

搜了搜这个,发现找不到答案。所以自己写了一个,很多程序绕过这个问题,往往人工来决定在何处截断,太麻烦了。

实现内容:截断一段含有HTML代码的文本,但是不会出现围堵标记没有封闭的问题。

一个PHP版本的在这里!:自动生成文章摘要[PHP版本]

核心部分如下:


代码如下:

function Generate_Brief(text,length){
    if(text.length < length) return text;
    var Foremost = text.substr(0,length);

var re = /<(\/?)(BODY|SCRIPT|P|DIV|H1|H2|H3|H4|H5|H6|ADDRESS|PRE|TABLE|TR|TD|TH|INPUT|SELECT|TEXTAREA|OBJECT|A|UL|OL|LI|BASE|META|LINK|HR|BR|PARAM|IMG|AREA|INPUT|SPAN)[^>]*(>?)/ig;

var Singlable = /BASE|META|LINK|HR|BR|PARAM|IMG|AREA|INPUT/i
    var Stack = new Array(), posStack = new Array();
    while(true){
        var newone = re.exec(Foremost);
        if(newone == null) break;

if(newone[1] == ""){
            var Elem = newone[2];
            if(Elem.match(Singlable) && newone[3]!= ""){
                continue;
            }
            Stack.push(newone[2].toUpperCase());
            posStack.push(newone.index);

if(newone[3] == "") break;
        }else{
            var StackTop = Stack[Stack.length-1];
            var End  = newone[2].toUpperCase();
            if(StackTop == End){
                Stack.pop();
                posStack.pop();
                if(newone[3] == ""){
                    Foremost = Foremost+">";
                }
            }

};
    }    
    var cutpos = posStack.shift();
    Foremost = Foremost.substring(0,cutpos);

return Foremost;
}

测试用例如下:

[input] truncate as charactors

本文的任何文字和图片都不容许以任何方式转载,违者将诉诸法律手段处理!!!请严肃对待!

;

这位是娃娃,他是我弟弟。是一只很酷又非常可爱的小狗。

他今年已经两岁了,虽然个头很小,但是气势一点也不逊色大狗。非常敢于同恶势力作斗争

娃娃的显著特点就是可爱,尤其是把耳朵背在后面的时候显得特别可爱,仿佛一只乖巧的小猫咪。他还会站起来跳舞,比如你要给他什么好吃的时候他就会这样做。毕竟这是他的一种赖以谋生的工作方式,这年头,不会点技术能有饭吃吗。

他还有一个特点就是很酷,尽管我们是兄弟,但是他从来没有巴结我们人类的臭毛病。午后,当灿烂的阳光透过窗子照射进来,娃娃会自己找到合适的位置,趴在地板上,让光束尽情地抚摸他。他的卧姿是那么的安详而威严,仿佛一位神圣的诗人,颔轻轻的抬起望着窗外陷入无尽的沉思,眼中闪耀着圣徒般的光芒。当你轻轻的从他身边走过,他会悠闲的转过头来看看你,用一种冷漠而平静的眼光,然后又将头转向原来的方向,颔再次轻轻的抬起,沉浸着,迷恋着...

他是那么可怜,作为一个温室小狗他每天只能呆在家里睡觉或者淘气。他的生活是那么的空洞,那么的乏味,那么的无奈。因为智力的问题,他经常做一些傻事,也常常直接或间接的伤到自己(直接就是吃了大东西卡住嗓子之类的,间接就是到处撒尿被我收拾了)。但是这又能怨他吗?他又不是自己想那么傻的。智商不高是上天决定的,他也控制不了的。娃娃是那么的傻,一只纯粹的傻狗,我终究没能教会他C语言编程。

娃娃是讲义气而且很重感情的,当你伤心的时候他会缓缓走过你身边,他用那种关怀的眼神看着你,仿佛在用墨西哥语说"What can I do for you?"。当你在将要离开家的前一个晚上,他又会走到你的床前,你把他抱起来,他会眼泪汪汪的看着你,饱含深情让你久久不能入睡

傻娃娃,现在不在我身边了,我很想念他。

下面是傻娃娃的表情SHOW!!!

举头望明月

"哼,为什么欺负我,讨厌"

"呀,惨了,这下可怎么办啊,下不去了..."

"唉,愁啊,真没办法."

"呜呜,我好可怜啊,放了我吧,我都要哭了,好伤感阿..."

"喂!怎么的你!跟你说话没听着啊!"

"呵,小样的,你活腻歪了吧!"

"嘿!我是凶恶的大老虎!"

[briefing]

function Do(){
var sOriginal = HtmlDecode(document.getElementById("Original").innerHTML);
var iLength = parseInt(document.getElementById("Length").value);
if(isNaN(iLength) || iLength]*(>?)/ig;

var Singlable = /BASE|META|LINK|HR|BR|PARAM|IMG|AREA|INPUT/i
var Stack = new Array(), posStack = new Array();
while(true){
var newone = re.exec(Foremost);
if(newone == null) break;

if(newone[1] == ""){
var Elem = newone[2];
if(Elem.match(Singlable) && newone[3]!= ""){
continue;
}
Stack.push(newone[2].toUpperCase());
posStack.push(newone.index);

if(newone[3] == "") break;
}else{
var StackTop = Stack[Stack.length-1];
var End = newone[2].toUpperCase();
if(StackTop == End){
Stack.pop();
posStack.pop();
if(newone[3] == ""){
Foremost = Foremost+">";
}
}

};
}
var cutpos = posStack.shift();
Foremost = Foremost.substring(0,cutpos);

return Foremost;
}

[Ctrl+A 全选 注:如需引入外部Js需刷新才能执行]

这个测试用例应该是好使,如果不行,请在纯IE下打开本页面。

主要问题是文章不能超过20000字,还差一个 HTMLencode, HTMLdecode 没有写进去。没办法只好嵌入了。

HTMLencode, HTMLdecode 在 http://cs02.100steps.net/new/onejsneeded.js 定义。不是我写的,如果需要自己去拿吧。
我的空间速度对大家来说可能会比较慢,那我也没办法了...

(0)

相关推荐

  • 自动生成文章摘要的代码[JavaScript 版本]

    很多程序绕过这个问题,往往人工来决定在何处截断,太麻烦了. 实现内容:截断一段含有HTML代码的文本,但是不会出现围堵标记没有封闭的问题. 一个PHP版本的在这里!: 自动生成文章摘要[PHP版本]. 核心部分如下: 复制代码 代码如下: function Generate_Brief(text,length){    if(text.length < length) return text;    var Foremost = text.substr(0,length);    var re 

  • PHP版自动生成文章摘要

    自动生成文章摘要[JavaScript 版本]. 我们在写BLOG这样的程序时经常需要显示文章前一部分的,但是又怕不恰当的截断破坏封闭标签以造成整 个文档结构破坏,使用我的函数可以在要求不高的情况下解决这个问题. 大家应该考虑这个函数在服务端应用还是在客户端应用.因为我考虑这个函数可能运行起来比较费机器, 所以安全性要求不高的情况下可以放在客户端上. 最好数据表中单独一个字段放这个摘要,这样相应的数据库查询也优化了.牺牲一点点空间换很多时间还 是划算的. 再聊一下安全性问题,主要是内容安全性.如

  • JavaScript 版本自动生成文章摘要

    实现内容:截断一段含有HTML代码的文本,但是不会出现围堵标记没有封闭的问题. php版本地址核心部分如下: 复制代码 代码如下: function Generate_Brief(text,length){ if(text.length < length) return text; var Foremost = text.substr(0,length); var re = /<(\/?) (BODY|SCRIPT|P|DIV|H1|H2|H3|H4|H5|H6|ADDRESS|PRE|TAB

  • 自动生成文章摘要的代码[PHP 版本]

    实现内容:截断一段含有HTML代码的文本,但是不会出现围堵标记没有封闭的问题. 说明:这是PHP版的,用于在服务器端使用,如果你需要一个客户端版的,请阅读下一篇  我们在写BLOG这样的程序时经常需要显示文章前一部分的,但是又怕不恰当的截断破坏封闭标签以造成整个文档结构破坏,使用我的函数可以在要求不高的情况下解决这个问题. 大家应该考虑这个函数在服务端应用还是在客户端应用.因为我考虑这个函数可能运行起来比较费机器,所以安全性要求不高的情况下可以放在客户端上. 最好数据表中单独一个字段放这个摘要,

  • 自动生成文章摘要[JavaScript 版本]

    By dknt From bbs.blueidea.com 搜了搜这个,发现找不到答案.所以自己写了一个,很多程序绕过这个问题,往往人工来决定在何处截断,太麻烦了. 实现内容:截断一段含有HTML代码的文本,但是不会出现围堵标记没有封闭的问题. 一个PHP版本的在这里!:自动生成文章摘要[PHP版本]. 核心部分如下: 复制代码 代码如下: function Generate_Brief(text,length){     if(text.length < length) return text

  • 利用原生JS自动生成文章标题树的实例

    实现原理很简单,就是循环文章模块,并抽取其中的h2.h3标签,将其中的内容赋予给新建的title树. 代码如下: HTML代码: <div class="contextBox"> <div id="article"> <h2>二级标题</h2> <h3>三级标题</h3> <p>hello hello hello hello hello hello hello hello hello

  • 简单使用Python自动生成文章

    为了应付某些情况,需要做17份记录.虽然不很重要,但是17份完全雷同也不很好.大体看了一下,此记录大致分为四段.于是决定每段提供四种选项,每段四选一,拼凑成四段文字,存成一个文件.文件名就叫"XX记录+日期".应急的随手创作,使用了"文件操作"和"生成随机数"的功能.比较简陋.后期扩展可以考虑搭配个数据库. 复制代码 代码如下: # -*- coding: cp936 -*- import random title='XXX周例会\n会议时间:

  • php实现自动获取生成文章主题关键词功能的深入分析

    以前写程序一直在逃避这个问题,tag什么的都是要求使用程序的人自行输入,对于某些懒人及为了程序的体验,则是希望可以有自动生成文章关键词,自动获取文章tag的类似功能,这次为了迎接新的项目,所以捣鼓了一晚上,研究了一下这个功能.要实现自动获取关键词的功能,大概可以分成三步1,通过分词算法将标题和内容分别进行分割,提取出关键词和频度.当前主要的两个算法是中科院的ICTCLAS和隐马尔可夫模型.但这两个都太高端,有一定的门槛,且都是只支持C++/JAVA.基于PHP的当前有两个是值得推荐的PSCWS和

  • python根据文章标题内容自动生成摘要的实例

    text.py title = '智能金融起锚:文因.数库.通联瞄准的kensho革命' text = '''2015年9月13日,39岁的鲍捷乘上从硅谷至北京的飞机,开启了他心中的金融梦想. 鲍捷,人工智能博士后,如今他是文因互联公司创始人兼CEO.和鲍捷一样,越来越多的硅谷以及华尔街的金融和科技人才已经踏上了归国创业征程. 在硅谷和华尔街,已涌现出Alphasense.Kensho等智能金融公司. 如今,这些公司已经成长为独角兽. 大数据.算法驱动的人工智能已经进入到金融领域.人工智能有望在

  • 文章或博客自动生成章节目录索引(支持三级)的实现代码

    自动生成章节目录索引(只支持一级) 一个好的博文除了博文的质量要好以外,好的组织结构也能让读者阅读的更加舒服与方便,我看园子里面有一些园友的博文都是分章节的,并且在博文的前面都带有章节的目录索引,点击索引之后会跳转到相应的章节阅读,并且还可以回到目录顶端,其中 Fish Li 的博文就是这种组织,当然这种结构如果是在写博文的时候人工设置那是非常麻烦的,无疑是增加了写作人的工作量.如果能自动生成章节索引岂不是节省了一大堆工作量.本来想通过FireBug看看Fish Li源码是怎么实现的,但是好像j

随机推荐