Java实现从Html文本中提取纯文本的方法

2025-01-30 10:12:20

1、应用场景：从一份html文件中或从String（是html内容）中提取纯文本，去掉网页标签；

2、代码一：replaceAll搞定

//从html中提取纯文本
public static String StripHT(String strHtml) {
String txtcontent = strHtml.replaceAll("</?[^>]+>", ""); //剔出<html>的标签
txtcontent = txtcontent.replaceAll("<a>\\s*|\t|\r|\n</a>", "");//去除字符串中的空格,回车,换行符,制表符
return txtcontent;
}

3、代码二：正则表达式搞定

//从html中提取纯文本
	public static String Html2Text(String inputString) {
		String htmlStr = inputString; // 含html标签的字符串
		String textStr = "";
		java.util.regex.Pattern p_script;
		java.util.regex.Matcher m_script;
		java.util.regex.Pattern p_style;
		java.util.regex.Matcher m_style;
		java.util.regex.Pattern p_html;
		java.util.regex.Matcher m_html;
		try {
			String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
	  String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
	  String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
	  p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
	  m_script = p_script.matcher(htmlStr);
	  htmlStr = m_script.replaceAll(""); // 过滤script标签
	  p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
	  m_style = p_style.matcher(htmlStr);
	  htmlStr = m_style.replaceAll(""); // 过滤style标签
	  p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
	  m_html = p_html.matcher(htmlStr);
	  htmlStr = m_html.replaceAll(""); // 过滤html标签
	  textStr = htmlStr;
	 } catch (Exception e) {System.err.println("Html2Text: " + e.getMessage()); }
		//剔除空格行
		textStr=textStr.replaceAll("[ ]+", " ");
		textStr=textStr.replaceAll("(?m)^\\s*$(\\n|\\r\\n)", "");
		return textStr;// 返回文本字符串
	}

4、代码三：HTMLEditorKit.ParserCallback搞定，Java自带的类

package com.util;
import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
public class Html2Text extends HTMLEditorKit.ParserCallback {
	 StringBuffer s;
	 public Html2Text() {}
	 public void parse(Reader in) throws IOException {
	 s = new StringBuffer();
	 ParserDelegator delegator = new ParserDelegator();
	 // the third parameter is TRUE to ignore charset directive
	 delegator.parse(in, this, Boolean.TRUE);
	 }
	 public void handleText(char[] text, int pos) {
	 s.append(text);
	 }
	 public String getText() {
	 return s.toString();
	 }
	 public static void main (String[] args) {
	 try {
	  // the HTML to convert
		 //Reader in=new StringReader("string");
	  FileReader in = new FileReader("java-new.html");
	  Html2Text parser = new Html2Text();
	  parser.parse(in);
	  in.close();
	  System.out.println(parser.getText());
	 }
	 catch (Exception e) {
	  e.printStackTrace();
	 }
	 }
}

以上这篇Java实现从Html文本中提取纯文本的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

java + dom4j.jar提取xml文档内容

本文实例为大家分享了java + dom4j.jar提取xml文档内容的具体代码,供大家参考,具体内容如下资源下载页:点击下载本例程主要借助几个遍历的操作对xml格式下的内容进行提取,操作不是最优的方法,主要是练习使用几个遍历操作. xml格式文档内容: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE nitf SYSTEM "http://www.nitf.org/IPTC/NITF
Java文件批量重命名批量提取特定类型文件

原因: 因为在网上下载视频教程,有的名字特别长,一般都是机构或者网站的宣传,不方便直接看到视频的简介,所以做了下面的第一个功能. 因为老师发的课件中,文件夹太多,想把docx都放在同一个文件夹下面,一个一个找出来太麻烦,所以做了第二个功能. 最近刚刚学了Java文件和流的知识,所以正好练练手,这也是自己的第一个exe程序,分享一下哈. (导出jar文件,以及用工具exe4j生成exe文件,这部分省略了哈) 用到的知识: 用到Java中文件,流的知识,以及简单的GUI知识. 功能: 功能一:去除文
Java实现解析dcm医学影像文件并提取文件信息的方法示例

本文实例讲述了Java实现解析dcm医学影像文件并提取文件信息的方法.分享给大家供大家参考,具体如下: 一.安装首先去Github下载源码,然后执行mvn install进行本地安装,Maven中央仓库,竟然没有该jar..安装成功之后如下: 然后在POM.XML文件中引入该jar包: <dependency> <groupId>org.dcm4che</groupId> <artifactId>dcm4che-core</artifactId>
Java实现从Html文本中提取纯文本的方法

1.应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签: 2.代码一:replaceAll搞定 //从html中提取纯文本 public static String StripHT(String strHtml) { String txtcontent = strHtml.replaceAll("</?[^>]+>", ""); //剔出<html>的标签 txtcontent = txtcont
django 实现后台从富文本提取纯文本

前言: 很多时候我们都会用富文本,比如说在版权区.博客文章编辑时等等.但是如果我们要做一个搜索的功能,去从富文本中查找关键字,就需要将富文本中的文本了.但是 django 并没有专门函数去做.这个时候我们就需要使用正则或者是提取前端的过滤器 striptags 方法. 开始: 一.用正则 import re content = ''.join(re.findall(">(.*?)<", content, re.S)) re.S 将换行的也算进去,一般都要加上二.使用 s
java获取文件编码,jsoup获取html纯文本操作

maven引入获取编码的jar <dependency> <groupId>com.ibm.icu</groupId> <artifactId>icu4j</artifactId> <version>67.1</version> </dependency> 获取文件编码 package com.lovnx.note.util; import com.ibm.icu.text.CharsetDetector; i
如何利用python批量提取txt文本中所需文本并写入excel

目录 1.提取txt文本 2.增加数据框的列 3.引入基础csv数据,并扩列汇总总结 1.提取txt文本我想要的文本是如图所示,宝可梦的外貌描述文本,由于原本的数据源结构并不是很稳定,而且也不是表格形式,因此在csdn上查了半天. 最原始的一行一行提取(不建议,未采用) fi = open("D:\python_learning\data\data\Axew.txt","r",encoding="utf-8") wflag =False #
浅谈Java异常的Exception e中的egetMessage()和toString()方法的区别

Exception e中e的getMessage()和toString()方法的区别: 示例代码1: public class TestInfo { private static String str =null; public static void main(String[] args) { System.out.println("test exception"); try { if(str.equals("name")){ System.out.println
python统计一个文本中重复行数的方法

本文实例讲述了python统计一个文本中重复行数的方法.分享给大家供大家参考.具体实现方法如下: 比如有下面一个文件 2 3 1 2 我们期望得到 2,2 3,1 1,1 解决问题的思路: 出现的文本作为key, 出现的数目作为value,然后按照value排除后输出最好按照value从大到小输出出来,可以参照: 复制代码代码如下: in recent Python 2.7, we have new OrderedDict type, which remembers the order in
Python判断文本中消息重复次数的方法

本文实例讲述了Python判断文本中消息重复次数的方法.分享给大家供大家参考,具体如下: #coding:gbk ''' Created on 2012-2-3 从文件中读取文本,并判断文本中形如"message0"."message123"这样的消息有多少条是重复的 @author: Administrator ''' import re if __name__ == '__main__': pattern = u"(message((\d)+))&qu
Java实现从jar包中读取指定文件的方法

本文实例讲述了Java实现从jar包中读取指定文件的方法.分享给大家供大家参考,具体如下: 以下的Java代码实现了从一个jar包中读取指定文件的功能: /** * This class implements the funcationality of reading and writing files in jar files. */ package com.leo.util; import java.io.InputStream; import java.io.FileOutputStrea
Linux 中删除文本中的回车字符的方法

当回车字符(Ctrl+M)让你紧张时,别担心.有几种简单的方法消除它们. "回车"字符可以往回追溯很长一段时间 -- 早在打字机上就有一个机械装置或杠杆将承载纸滚筒的机架移到右边,以便可以重新在左侧输入字母.他们在 Windows 上的文本文件上保留了它,但从未在 Linux 系统上使用过.当你尝试在 Linux 上处理在 Windows 上创建的文件时,这种不兼容性有时会导致问题,但这是一个非常容易解决的问题. 如果你使用 od(八进制转储octal dump)命令查看文件,那么回车
Java获取两个字符串中最大相同子串的方法

"abcwerthelloyuiodef" "cvhellobnm" 思路: 1,将短的那个子串按照长度递减的方式获取到. 2,将每获取到的子串去长串中判断是否包含,如果包含,已经找到! class StringTest3 { public static String getMaxSubString(String s1,String s2) { String max = "",min = ""; max = (s1.lengt

Java实现从Html文本中提取纯文本的方法

相关推荐

随机推荐