java过滤html标签获取纯文本信息的实例
如下所示:
package com.lyt.base.util; import java.util.regex.Pattern; public class FilterHtmlUtil { public static String Html2Text(String inputString){ String htmlStr = inputString; //含html标签的字符串 String textStr =""; java.util.regex.Pattern p_script; java.util.regex.Matcher m_script; java.util.regex.Pattern p_style; java.util.regex.Matcher m_style; java.util.regex.Pattern p_html; java.util.regex.Matcher m_html; try{ String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script> } String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style> } String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式 p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE); m_script = p_script.matcher(htmlStr); htmlStr = m_script.replaceAll(""); //过滤script标签 p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE); m_style = p_style.matcher(htmlStr); htmlStr = m_style.replaceAll(""); //过滤style标签 p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE); m_html = p_html.matcher(htmlStr); htmlStr = m_html.replaceAll(""); //过滤html标签 textStr = htmlStr; }catch(Exception e){ e.printStackTrace(); } return textStr;//返回文本字符串 } }
以上这篇java过滤html标签获取纯文本信息的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
相关推荐
-
Java实现DFA算法对敏感词、广告词过滤功能示例
一.前言 开发中经常要处理用户一些文字的提交,所以涉及到了敏感词过滤的功能,参考资料中DFA有穷状态机算法的实现,创建有向图.完成了对敏感词.广告词的过滤,而且效率较好,所以分享一下. 具体实现: 1.匹配大小写过滤 2.匹配全角半角过滤 3.匹配过滤停顿词过滤. 4.敏感词重复词过滤. 例如: 支持如下类型类型过滤检测: fuck 全小写 FuCk 大小写 fuck全角半角 f!!!u&c ###k 停顿词 fffuuuucccckkk 重复词 敏感词过滤的做法有很多,我简单描述我现在理
-
JavaWeb Servlet中Filter过滤器的详解
JavaWeb Servlet中Filter过滤器的详解 1.简述 Filter过滤器,对web服务器所有web资源进行过滤,从而实现一些特殊的功能(权限访问控制.过滤敏感词汇.压缩响应信息).Filter能够对Servlet容器的请求和响应进行检查和修改,其本身不能生成请求request和响应response,只提供过滤作用(Servlet被调用之前检查Request对象修改其相关信息,Servlet被调用后检查Response修改其相关信息),Filter对象常驻服务器. 2.Lifecyc
-
Java实现简单文件过滤器功能
代码思路: 想要循环遍历文件夹下所有子文件夹,就要用到递归. 首先判断路径是否存在: 是:获取文件 判断是否文件夹: 是:调用自身,继续获取子文件夹下内容 否:判断文件后缀,符合则输出 否:输出提示 package com.hanqi.maya.util; import java.io.File; import java.util.Scanner; public class TestGuolv { public static void main(String[] args) { Scanner
-
Java编程实现基于用户的协同过滤推荐算法代码示例
协同过滤简单来说是利用某兴趣相投.拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要. 协同过滤又可分为评比(rating)或者群体过滤(social filtering)协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热 UserCF的核心思想即为根据用户数据模拟向量相似度,我们根据这个相似度,来找出指定用户的相似用户,然后将相似用
-
基于java servlet过滤器和监听器(详解)
1 过滤器 1.过滤器是什么? servlet规范当中定义的一种特殊的组件,用于拦截容器的调用. 注:容器收到请求之后,如果有过滤器,会先调用过滤器,然后在调用servlet. 2.如何写一个过滤器? 1.写一个java类,实现Filter接口; 2.在接口方法中实现拦截方法; 3.配置过滤器(web.xml); 3.配置初始化参数 1.配置初始化参数.(init-param) 2.通过filterconfig提供的getinitparamenter方法读取初始化的值. 4.优先级: 当有多个过
-
Java Web实现session过期后自动跳转到登陆页功能【基于过滤器】
本文实例讲述了Java Web实现session过期后自动跳转到登陆页功能.分享给大家供大家参考,具体如下: 通过过滤器的方式实现 session过期后自动跳转到登陆页 过滤器只在与servlet规范2.3版兼容的服务器上有作用.如果你的Web应用需要支持旧版服务器,就不能使用过滤器. 一.建立基本过滤器 建立一个过滤器涉及下列五个步骤: 1)建立一个实现Filter接口的类SessionFilter .这个类需要三个方法,分别是:doFilter.init和destroy.doFilter方法
-
java并发访问重复请求过滤问题
问题描述 前段时间遇到个问题,自己内部系统调用出现重复请求导致数据混乱. 发生条件:接受到一个请求,该请求没有执行完成又接受到相同请求,导致数据错误(如果是前一个请求执行完成,马上又接受相同请求不会有问题) 问题分析:是由于数据库的脏读导致 问题解决思路 1.加一把大大的锁 (是最简单的实现方式,但是性能堪忧,而且会阻塞请求) 2.实现请求拦截 (可以共用,但是怎么去实现却是一个问题,怎么用一个优雅的方式实现,并且方便复用) 3.修改实现 (会对原有代码做改动,存在风险,最主要的是不能共用) 最
-
java过滤html标签获取纯文本信息的实例
如下所示: package com.lyt.base.util; import java.util.regex.Pattern; public class FilterHtmlUtil { public static String Html2Text(String inputString){ String htmlStr = inputString; //含html标签的字符串 String textStr =""; java.util.regex.Pattern p_script;
-
python 用正则表达式筛选文本信息的实例
本文主要介绍如何对多个文本进行读取,并采用正则表达式对其中的信息进行筛选,将筛选出来的信息存写到一个新文本. 文本基础操作 打开文件:open('文件名','打开方式')>>>file=open(r'C:\Users\yuanlei\Desktop\mytxt.txt','w+').为避免报错,在文件名的引号前加个r. 文件打开方式:只读--r或rt,rb为二进制文件:打开文件前清空文件内容--w或wt:在文末写入--a+: 清空内容然后在文末写入--w+:写到文件任意位置--r+; 关
-
利用百度地图API获取当前位置信息的实例
利用百度地图API可以做很多事情,个人感觉最核心也是最基础的就是定位功能了.这里分享一个制作的JS可以实现登录网页后定位: <script type="text/javascript"> var map; var gpsPoint; var baiduPoint; var gpsAddress; var baiduAddress; var x; var y; function getLocation() { //根据IP获取城市 var myCity = new BMap.
-
layui 富文本赋值,取值,取纯文本值的实例
layui 富文本赋值: <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>layui</title> <meta name="renderer" content="webkit">
-
java使用htmlparser提取网页纯文本例子
复制代码 代码如下: package com.test; import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.filters.TagNameFilter;import org.htmlparser.tags.TableTag;import org.htmlparser.util.NodeList; /*** 标题:利用htmlp
-
删除html标签得到纯文本可处理嵌套的标签
方法基本上来自THinkphp中的源码,但是被我修改了一下 复制代码 代码如下: <?php /* *@Description:删除HTML标签,得到纯文本.可以处理嵌套的标签 * */ class deleteHtmlTags{ private $filename; function __construct($filename='C:/AppServ/www/text.txt'){ $this->filename = $filename; } /** * 删除html标签,得到纯文本.可以处
-
php实现专业获取网站SEO信息类实例
本文实例讲述了php实现专业获取网站SEO信息类.分享给大家供大家参考.具体如下: 这个seo类的功能包括: - 检查指定的网站响应 - 获取从该网站主页的语言和其他meta标签数据的 - 获取网站的导入链接,从Alexa的流量排名 - 获取网站的导入链接,由谷歌索引的网页数量 - 获取网站的信任,从WOT排名. - 获取,因为它是第一个注册的网站域名年龄 - 获取的Twitter网站页面的数量 - 获取的Facebook链接的网站页面 - 获取网站谷歌网页速度等级 - 获取网站的谷歌网页排名
-
使用python无账号无限制获取企查查信息的实例代码
前言 文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 通过网上爬虫获取了全国所有企业,然后就需要补充企业信息,首先想到的就是企查查,启信宝等专业网站,最终选择了企查查,尝试了多种方法: 1.selenium爬虫,绕过企查查的登录验证,但账号和IP限制太大,最终放弃 2.通过requests直接请求+cookies,遇到了cookie有效期和限制问题 不断的尝试和修改参数,最终发现一种有效方式selenium + wep 只需要IP
-
java根据ip地址获取详细地域信息的方法
互联网有很多接口可以实现通过ip查询到具体的位置,如下: 通过淘宝IP地址库获取IP位置 请求接口(GET):http://ip.taobao.com/service/getIpInfo.php?ip=[ip地址字串] 响应信息:(json格式的)国家 .省(自治区或直辖市).市(县).运营商 返回数据格式: {"code":0,"data":{"ip":"210.75.225.254","country"
-
Java如何基于反射获取对象属性信息
先建立一个类,有四种属性: private int id; private String name; private byte by; private short st; 以下方法,创建一个对象,然后打印该对象的属性名字,属性值,和属性的类型: public class T { public static void main(String[] args) throws Exception { User u = new User(); u.setId(1); u.setName("cc"
随机推荐
- Perl时间处理函数用法介绍
- AjaxFileUpload+Struts2实现多文件上传功能
- 易语言基础教程之制作简易浏览器
- jQuery无缝轮播图代码
- Javascript 修改String 对象 增加去除空格功能(示例代码)
- 详细介绍.NET中的动态编译技术
- 创业者成功的秘诀分析
- PowerShell中使用return语句退出函数例子
- 使用Linux的Shell脚本定时处理MySQL超时
- CentOS+Nginx+PHP+MySQL标准生产环境配置方法
- 扩展jQuery 键盘事件的几个基本方法
- jquery获取easyui日期控件的值实现方法
- JavaScript高级程序设计 阅读笔记(十三) js定义类或对象
- dvbbs7.1 照样从后台得到webshell
- servlet配置方法及其生命周期详解
- Android应用中仿今日头条App制作ViewPager指示器
- C#中实现输入汉字获取其拼音(汉字转拼音)的2种方法
- eWebEditor:网站中的隐形炸弹
- 浅谈C#2.0泛型中的变化:default关键字
- C/C++中关于std::string的compare陷阱示例详解