C#使用HtmlAgilityPack组件解析html文档

2025-02-23 15:13:35

一、HtmlAgilityPack介绍

参考：

GitHub：https://github.com/zzzprojects/html-agility-pack/releases

官网：https://html-agility-pack.net/

https://www.nuget.org/packages/HtmlAgilityPack/

HtmlAgilityPack(以下简称HAP)是一个基于.Net的、第三方免费开源的微型类库，主要用于在服务器端解析html文档。

HtmlAgilityPack为网页提供了标准的DOM API和XPath导航。使用WebBrowser和HttpWebRequest下载的网页可以用Html Agility Pack来解析。

Xpath表达式的参考文档可见：XML基本概念XPath、XSLT与XQuery函数介绍

二、属性和方法

HtmlAgilityPack中的HtmlNode类与XmlNode类差不多，HtmlDocument类与XmlDocument类差不多。

参考：C#下使用XmlDocument操作XML

1、属性：

OwnerDocument：节点所在的HtmlDocument文档
Attributes： 获取节点的属性集合
ParentNode：获取该节点的父节点
ChildNodes：获取子节点集合(包括文本节点)
FirstChild： 获取第一个子节点
LastChild： 获取最后一个子节点
Id： 获取该节点的Id属性
Name：Html元素名
NodeType： 获取该节点的节点类型
InnerHtml： 获取该节点的Html代码
InnerText： 获取该节点的内容，与InnerHtml不同的地方在于它会过滤掉Html代码，而InnerHtml是连Html代码一起输出
OuterHtml： 整个节点的代码
PreviousSibling： 获取前一个兄弟节点
NextSibling： 获取下一个兄弟节点
HasAttributes ：判断该节点是否含有属性
HasChildNodes： 判断该节点是否含有子节点
HasClosingAttributes ：判断该节点的关闭标签是否含有属性(</xxx class="xxx">)
Closed：该节点是否已关闭(</xxx>)
ClosingAttributes在关闭标签的属性集合StreamPosition： 该节点位于整个Html文档的字符位置
XPath： 根据节点返回该节点的XPath

2、方法：

Load (string path)：从路径中加载一个文档
SelectNodes (string xpath)：根据XPath获取一个节点集合
SelectSingleNode (string xpath)：根据XPath获取唯一的一个节
Ancestors ()：返回此元素的所有上级节点的集合。
DescendantNodes ()：获取所有子代节点
Element (string name)：根据参数名获取一个元素
Elements (string name)：根据参数名获取匹配的元素集合
GetAttributeValue(string name, bool def)：帮助方法，用来获取此节点的属性的值(布尔类型)。如果未找到该属性，则将返回默认值。
ChildAttributes(string name)：获取所有子元素的属性(参数名要与元素名匹配)
IsEmptyElement(string name)：确定是否一个空的元素节点。
IsOverlappedClosingElement(string text)：确定是否文本对应于一个节点可以保留重叠的结束标记。
AppendChild(HtmlNode newChild)：将参数元素追加到为调用元素的子元素(追加在最后)
PrependChild(HtmlNode newChild)：将参数中的元素作为子元素，放在调用元素的最前面
Clone()：本节点克隆到一个新的节点
CopyFrom(HtmlNode node)：创建重复的节点和其下的子树。
CreateNavigator()：返回的一个对于此文档的XPathNavigator
CreateNode(string html)：静态方法，允许用字符串创建一个新节点
CreateRootNavigator()：创建一个根路径的XPathNavigator
InsertAfter(HtmlNode newChild, HtmlNode refChild)：将一个节点插入到第二个参数节点的后面，与第二个参数是兄弟关系
InsertBefore(HtmlNode newChild, HtmlNode refChild)：将一个节点插入到第二个参数节点的后面，与第二个参数是兄弟关系
Remove()：从父集合中移除调用节点
SetAttributeValue(string name, string value)：设置调用节点的属性
WriteContentTo()：将该节点的所有子级都保存到一个字符串中。
WriteTo()：将当前节点保存到一个字符串中。
Save(string filename)：将HTML文档保存到指定的路径

三、用法举例

下面是几个简单使用说明：

1、获取网页title：

doc.DocumentNode.SelectSingleNode("//title").InnerText;//XPath中：“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。

2、获取所有的超链接：

doc.DocumentNode.Descendants("a")

3、获取name为kw的input，也就是相当于getElementsByName()：

var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");

示例：

private void Form1_Load(object sender, EventArgs e)
{
    List<Result> list = new List<Result>();
    HtmlWeb htmlWeb = new HtmlWeb();
    htmlWeb.OverrideEncoding = Encoding.UTF8;//编码，这里网上有些很多写法都不正确
    HtmlAgilityPack.HtmlDocument htmlDoc = htmlWeb.Load(@http://www.cnblogs.com/);
    //选择博客园首页文章列表
    htmlDoc.DocumentNode.SelectNodes("//div[@id='post_list']/div[@class='post_item']").//双斜杠“//”表示从跟节点开始查找
        AsParallel().ToList().ForEach(ac =>
        {
            //抓取图片，因为有空的，所以拿变量存起来
            HtmlNode node = ac.SelectSingleNode(".//p[@class='post_item_summary']/a/img");
            list.Add(new Result
            {
                url = ac.SelectSingleNode(".//a[@class='titlelnk']").Attributes["href"].Value,
                title = ac.SelectSingleNode(".//a[@class='titlelnk']").InnerText,
                //图片如果为空，显示默认图片
                img = node == null ? "http ://www.cnblogs.com//Content/img/avatar.png" : node.Attributes["src"].Value,
                content = ac.SelectSingleNode(".//p[@class='post_item_summary']").InnerText
            });
        });

    foreach (Result item in list)
    {
        this.listBox1.Items.Add(item.title);
    }
}
/// <summary>
/// 页面抓取结果
/// </summary>
public class Result
{
    /// <summary>
    /// 链接
    /// </summary>
    public string url { get; set; }
    /// <summary>
    /// 标题
    /// </summary>
    public string title { get; set; }
    /// <summary>
    /// 头像地址
    /// </summary>
    public string img { get; set; }
    /// <summary>
    /// 正文内容
    /// </summary>
    public string content { get; set; }
}

示例2：下载微软文档

using HtmlAgilityPack;
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;

namespace ConsoleApp4
{
    internal class Program
    {
        private static void Main(string[] args)
        {
            //网页地址：
            string Url = "https://docs.microsoft.com/zh-cn/aspnet/mvc/overview/getting-started/getting-started-with-ef-using-mvc/implementing-inheritance-with-the-entity-framework-in-an-asp-net-mvc-application";

            List<string> list = new List<string>(); ;
            HtmlWeb htmlWeb = new HtmlWeb();
            htmlWeb.OverrideEncoding = Encoding.UTF8;

            HtmlDocument htmlDoc = htmlWeb.Load(Url);

            HtmlNode node = htmlDoc.DocumentNode.SelectSingleNode("//main[@id='main']");

            //去掉英文翻译
            var a = node.SelectNodes("//span[@class='sxs-lookup']");
            foreach (HtmlNode b in a)

            {
                b.Remove();
            }

            string src = "";
            //图片相对路径改成绝对路径
            var imgNode = node.SelectNodes("//img[@data-linktype='relative-path']");
            foreach (HtmlNode node1 in imgNode)
            {
                src = node1.GetAttributeValue("src", "");
                var url = new Uri(htmlWeb.ResponseUri, src);
                node1.SetAttributeValue("src", url.AbsoluteUri);
            }

            //链接路径转换
            var hrefNode = node.SelectNodes("//a[@data-linktype='relative-path']|//a[@data-linktype='absolute-path']");
            foreach (HtmlNode node1 in hrefNode)
            {
                src = node1.GetAttributeValue("href", "");
                var url = new Uri(htmlWeb.ResponseUri, src);
                node1.SetAttributeValue("href", url.AbsoluteUri);
            }

            //找到所有的H2标签，然后加上顺序。
            var h2Node = node.SelectNodes("//h2");
            var arr = new string[] { "一", "二", "三", "四", "五", "六", "七", "八", "九", "十", "十一", "十二", "十三", "十四", "十五", "十六", "十七", "十八", "十九", "二十" };
            if (h2Node != null)
            {
                for (int i = 0; i < h2Node.Count; i++)
                {
                    h2Node[i].InnerHtml = arr[i] + "、" + h2Node[i].InnerHtml;
                    //找到所有的H3标签，然后加上顺序。

                    var h3Node = h2Node[i].SelectNodes("following-sibling::h2|following-sibling::h3");
                    if (h3Node is null)
                        break;
                    for (int j = 0; j < h3Node.Count; j++)
                    {
                        if (h3Node[j].Name == "h2")
                            break;
                        else
                            h3Node[j].InnerHtml = (j + 1) + "、" + h3Node[j].InnerHtml;
                    }
                }
            }
            HtmlNode myNOde = htmlDoc.CreateElement("div");

            //去掉前面无用的部分
            var OK = node.SelectNodes("nav[1]/following-sibling::*");
            myNOde.AppendChildren(OK);

            //添加原文连接：
            HtmlNode nodeOriUrl = htmlDoc.CreateElement("p");
            nodeOriUrl.InnerHtml = "原文：<a href='" + htmlWeb.ResponseUri + "'>" + htmlWeb.ResponseUri + "</a>";
            myNOde.PrependChild(nodeOriUrl);

            //写入到本地文件
            TextWriter wr = new StreamWriter(@"aa.html");
            myNOde.WriteTo(wr);
            wr.Close();
        }
    }
}

四、Fizzler.Systems.HtmlAgilityPack：

Hazz为HTMLAgilityPack实现CSS选择器。它基于Fizzler，一个通用的CSS选择器解析器和生成器库。

Hazz以前称为Fizzler.Systems.HtmlAgilityPack。

// Load the document using HTMLAgilityPack as normal
var html = new HtmlDocument();
html.LoadHtml(@"
  <html>
      <head></head>
      <body>
        <div>
          <p class='content'>Fizzler</p>
          <p>CSS Selector Engine</p></div>
      </body>
  </html>");

// Fizzler for HtmlAgilityPack is implemented as the
// QuerySelectorAll extension method on HtmlNode

var document = html.DocumentNode;

// yields: [<p class="content">Fizzler</p>]
document.QuerySelectorAll(".content");

// yields: [<p class="content">Fizzler</p>,<p>CSS Selector Engine</p>]
document.QuerySelectorAll("p");

// yields empty sequence
document.QuerySelectorAll("body>p");

// yields [<p class="content">Fizzler</p>,<p>CSS Selector Engine</p>]
document.QuerySelectorAll("body p");

// yields [<p class="content">Fizzler</p>]
document.QuerySelectorAll("p:first-child");

到此这篇关于C#使用HtmlAgilityPack组件解析html文档的文章就介绍到这了。希望对大家的学习有所帮助，也希望大家多多支持我们。

c# 使用HtmlAgilityPack解析Html

HtmlAgilityPack 是一个开源的快速解析Html的C#类库.简单理解,它可以像解析Xml一样,将Html根据XPATH转化为一个个Node节点,并支持调整节点以及节点的各种属性. 传送门:官网 | Github源码多种方式加载Html 主要加载方式有3类:从网络链接加载.从字符串文本中加载.从文件加载 var doc = new HtmlDocument(); //直接通过url加载 doc = new HtmlWeb().Load("https://www.baidu.com/&
c#使用htmlagilitypack解析html格式字符串

使用方法: 1.引用HtmlAgilityPack.dll文件 2.引用命名空间: 复制代码代码如下: using HtmlAgilityPack; 3.调用复制代码代码如下: static void Main(string[] args) { string html = GetHtml("http://www.jb51.net"); HtmlDocument doc = new HtmlDocument();
C#使用HtmlAgilityPack抓取糗事百科内容实例

本文实例讲述了C#使用HtmlAgilityPack抓取糗事百科内容的方法.分享给大家供大家参考.具体实现方法如下: Console.WriteLine("*****************糗事百科24小时热门*******************"); Console.WriteLine("请输入页码,输入0退出"); string page = Console.ReadLine(); while (page!="0") { HtmlWeb h
C#使用HtmlAgilityPack组件解析html文档

一.HtmlAgilityPack介绍参考: GitHub:https://github.com/zzzprojects/html-agility-pack/releases 官网:https://html-agility-pack.net/ https://www.nuget.org/packages/HtmlAgilityPack/ HtmlAgilityPack(以下简称HAP)是一个基于.Net的.第三方免费开源的微型类库,主要用于在服务器端解析html文档. HtmlAgilityP
C#使用AngleSharp库解析html文档

一.简介 AngleSharp:https://github.com/AngleSharp/AngleSharp AngleSharp是一个.NET库,使您能够解析基于尖括号的超文本,例如HTML,SVG和MathML,该库还支持未经验证的XML,AngleSharp的一个重要方面是CSS也可以解析. AngleSharp与类似的库(例如HtmlAgilityPack)相比的优势在于: 公开的DOM使用的是W3C官方指定的API,即,甚至在AngleSharp中也可以使用querySelecto
dom4j创建和解析xml文档的实现方法

DOM4J解析特征: 1.JDOM的一种智能分支,它合并了许多超出基本XML文档表示的功能. 2.它使用接口和抽象基本类方法. 3.具有性能优异.灵活性好.功能强大和极端易用的特点. 4.是一个开放源码的文件 jar包:dom4j-1.6.1.jar 创建 book.xml: package com.example.xml.dom4j; import java.io.FileWriter; import org.dom4j.Document; import org.dom4j.Document
PHP4和PHP5版本下解析XML文档的操作方法实例分析

本文实例讲述了PHP4和PHP5版本下解析XML文档的操作方法.分享给大家供大家参考,具体如下: 在PHP网站开发与建设过程中,时常会碰到需要对XML文档进行解析,PHP4版本自带了XML解析器(sax),PHP5版本增加了SimpleXML(基于dom)的XML扩展,对XML的解析更是非常方便,今天和大家分享下在不同环境下对XML文档进行解析的方法. XML文档 <?xml version="1.0" encoding="gbk"?> <Leap
Android XmlPullParser 方式解析 Xml 文档

Android XmlPullParser 方式解析 Xml 文档 xml 文件格式 <?xml version="1.0" encoding="UTF-8"?> <persons> <person id="1"> <name>张三</name> <age>22</age> </person> <person id="2"&g
JS实现兼容各浏览器解析XML文档数据的方法

本文实例讲述了JS实现兼容各浏览器解析XML文档数据的方法.分享给大家供大家参考.具体分析如下: 网站上很多用JS解析XML文档的资料或多或少都有点问题, 以下是自己总结的代码,用来解析XML文档,兼容各个浏览器. parseXMLDOM.js代码: /* * 纯JS解析XML文档(兼容各个浏览器) */ function parseXMLDOM(){ var _browserType = ""; var _xmlFile = ""; var _XmlDom = n
java使用dom4j生成与解析xml文档的方法示例

本文实例讲述了java使用dom4j生成与解析xml文档的方法.分享给大家供大家参考,具体如下: xml是一种新的数据格式,主要用于数据交换.我们所用的框架都有涉及到xml.因此解析或生成xml对程序员也是一个技术难点.这里就用dom4j来生成一个文档,需要注意的是每个xml文档只有一个根节点. package org.lxh; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutput
原生javascript实现解析XML文档与字符串

之前写过一篇 <使用jquery解析XML的方法>链接是http://www.jb51.net/article/54842.htm,上篇文章详细解释了jQuery 与字符串互相转换的方法 ,这里着重论述javascript操作xml. 总代码如下: var XMLHttp = null; if (window.XMLHttpRequest) { //现代浏览器 XMLHttp = new XMLHttpRequest(); } else if (window.ActiveXObject) {
java中四种生成和解析XML文档的方法详解（介绍+优缺点比较+示例）

众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 下面首先给出这四种方法的jar包下载地址 DOM:在现在的Java JDK里都自带了,在xml-apis.jar包里 SAX:http://sourceforge.net/projects/sax/ JDOM:http://jdom.org/downloads/index.html DOM4J:http://sourceforge.net/projects/dom4j/ 一.介绍及优缺点分析
Java dom4j创建解析xml文档过程解析

DOM4J解析特征: 1.JDOM的一种智能分支,它合并了许多超出基本XML文档表示的功能. 2.它使用接口和抽象基本类方法. 3.具有性能优异.灵活性好.功能强大和极端易用的特点. 4.是一个开放源码的文件 jar包:dom4j-1.6.1.jar 创建 book.xml: package com.example.xml.dom4j; import java.io.FileWriter; import org.dom4j.Document; import org.dom4j.Document