解析xHTML源码的DLL组件AngleSharp介绍

AngleSharp是基于.NET(C#)开发的专门为解析xHTML源码的DLL组件。

项目地址:https://github.com/FlorianRappl/AngleSharp

我主要介绍是一些使用AngleSharp常用的方法,跟大家介绍,我会以我们站点作为原型。 其它的类似组件有:

国内:Jumony
github地址: https://github.com/Ivony/Jumony

国外:Html Agility Pack
项目地址:http://htmlagilitypack.codeplex.com/

具体大家可以自行搜索对比三者的区别和性能。接下来咱们主要讨论主角是AngleSharp

引入AngleSharp至项目,用NuGet工具执行命令(其实我是在装逼。) Install-Package AngleSharp

在项目中添加引用Using AngleSharp

首先我们获取CnBlogs首页的HTML源代码

static public string GetHtml()
{
  HttpWebRequest myReq =
  (HttpWebRequest)WebRequest.Create("http://www.jb51.net");
  HttpWebResponse response = (HttpWebResponse)myReq.GetResponse();
  // Get the stream associated with the response.
  Stream receiveStream = response.GetResponseStream();

  // Pipes the stream to a higher level stream reader with the required encoding format.
  StreamReader readStream = new StreamReader(receiveStream, Encoding.UTF8);

  return readStream.ReadToEnd();
}

获取jb51首页当前所有博客文章的标题

private static void Main(string[] args) { //找出所有文章标题 string cnblogsHtml = GetHtml();

  //加载HTML
  var document = DocumentBuilder.Html(cnblogsHtml);
  //这里必须要使用== 不能使用Equals
  var titleItemList = document.All.Where(m => m.ClassName == "titlelnk");
  int iIndex = 1;
  foreach (var element in titleItemList)
  {
    Console.WriteLine(iIndex + ":" + element.InnerHtml);
    iIndex++;
  }
}

以上代码输出内容:

1:JNDI学习总结(三)——Tomcat下使用Druid配置JNDI数据源
2:我们前端是怎么跟设计师沟通的
3:MVC5+EF6 入门完整教程六
4:试议常用Javascript 类库中 throttle 与 debounce 辅助函数的区别
5:孤独的走过年轻
6:上周热点回顾(11.10-11.16)
7:Android动画-补间(Tween)动画
8:朴素贝叶斯算法的python实现
9:MVC三层级联方式
10:C# 标签(条码)的打印与设计(一)
11:OpenCASCADE Make Primitives-Box
12:基于solr实现hbase的二级索引
13:(十六)WebGIS中偏移补偿量引发的问题之探讨
14:javascript小游戏--生命游戏
15:Android动画-帧动画
16:C# Socket学习笔记一
17:lua表排序
18:ZooKeeper系列 第一篇:ZooKeeper快速入门
19:【插件开发】—— 9 编辑器代码分块着色-高亮显示!
20:华盛顿大学计算机视觉课程笔记(一)

官方有提供详细的文档和例子,大家可以去看一下。此插件最大的优势:支持输出Javascript、Linq语法、ID和Class选择器、动态添加节点。实为.NET开发之利器。

AngleSharp文档:https://github.com/FlorianRappl/AngleSharp/wiki/Documentation

AngleSharp例子(Demo):https://github.com/FlorianRappl/AngleSharp/wiki/Examples

(0)

相关推荐

  • python网络编程学习笔记(七):HTML和XHTML解析(HTMLParser、BeautifulSoup)

    一.利用HTMLParser进行网页解析 具体HTMLParser官方文档可参考http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser 1.从一个简单的解析例子开始 例1: test1.html文件内容如下: 复制代码 代码如下: <html> <head> <title> XHTML 与 HTML 4.01 标准没有太多的不同</title> </head> &l

  • 用xslt将xml解析成xhtml的代码

    使用xslt进行解析的基本格式是这样的:如 复制代码 代码如下: <?xml version="1.0" encoding="GB2312"?> <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output method='html' version='1.0' encodin

  • 一个用xslt样式将xml解析为xhtml的类TransformBinder(兼容FF和IE7.0)

    由于前面的方法xslt需要在xml文件内部直接导入,而项目中用到的xml文件是系统生成的,只能提供路径,而没有办法改写xml里面的内容,所以需要找一个方法能够在外部将xml和xslt关联在一起,这样既达到了目的,也可以应用于多个xml文件,方便管理. 先上代码,系统中使用module这个js进行打包,module这个工具是专门用来将js进行打包,这个工具以后的文章再做介绍,我自己现在只会使用,还没研究其底层的代码:这边我们将js写在一个文件里面,包括类以及类实现的方法, 下面是js代码:tran

  • 解析xHTML源码的DLL组件AngleSharp介绍

    AngleSharp是基于.NET(C#)开发的专门为解析xHTML源码的DLL组件. 项目地址:https://github.com/FlorianRappl/AngleSharp 我主要介绍是一些使用AngleSharp常用的方法,跟大家介绍,我会以我们站点作为原型. 其它的类似组件有: 国内:Jumony github地址: https://github.com/Ivony/Jumony 国外:Html Agility Pack 项目地址:http://htmlagilitypack.co

  • Vue3 AST解析器-源码解析

    目录 1.生成 AST 抽象语法树 2.创建 AST 的根节点 3.解析子节点 4.解析模板元素 Element 5.示例:模板元素解析 上一篇文章Vue3 编译流程-源码解析中,我们从 packges/vue/src/index.ts 的入口开始,了解了一个 Vue 对象的编译流程,在文中我们提到 baseCompile 函数在执行过程中会生成 AST 抽象语法树,毫无疑问这是很关键的一步,因为只有拿到生成的 AST 我们才能遍历 AST 的节点进行 transform 转换操作,比如解析 v

  • 解析Linux源码之epoll

    目录 一.前言 二.简单的epoll例子 2.1.epoll_create 2.2.struct eventpoll 2.3.epoll_ctl(add) 2.4.ep_insert 2.5.tfile->f_op->poll的实现 2.6.回调函数的安装 2.7.epoll_wait 2.8.ep_send_events 三.事件到来添加到epoll就绪队列(rdllist)的过程 3.1.可读事件到来 3.2.可写事件到来 四.关闭描述符(close fd) 五.总结 一.前言 在linu

  • 解析spark源码yarn-cluster模式任务提交

    目录 一,运行命令 二,任务提交流程图 三,启动脚本 四,程序入口类org.apache.spark.deploy.SparkSubmit 五,org.apache.spark.deploy.yarn.YarnClusterApplication类 六, org.apache.spark.deploy.yarn.ApplicationMaster 类. 一,运行命令 bin/spark-submit \ --master yarn \ --deploy-mode cluster \ --clas

  • Python爬虫实战之网易云音乐加密解析附源码

    目录 环境 知识点 第一步 第二步 开始代码 先导入所需模块 请求数据 提取我们真正想要的 音乐的名称 id 导入js文件 保存文件 完整代码 环境 python3.8 pycharm2021.2 知识点 requests >>> pip install requests execjs >>> pip install PyExecJS 第一步 打开这个网站 在里面去分析我们需要的数据 每个音乐的名称 id 去网页源代码查找数据,发现并没有,这个网页 并不是一个静态页面

  • Vue编译器解析compile源码解析

    目录 引言 解析 compile compile 源码 配置选项 属性分别解析 finalOptions添加warn 方法 两个特殊的属性处理 引言 在上篇文章 Vue编译器源码分析compileToFunctions作用中我们介绍到了,在 compileToFunctions 方法中: // compile var compiled = compile(template, options); 而真正的编译工作是依托于 compile 函数,接下来我们详细解析 compile . 解析 comp

  • 深入解析vue 源码目录及构建过程分析

    ​" 本文主要梳理一下vue代码的目录,以及vue代码构建流程,旨在对vue源码整体有一个认知,有助于后续对源码的阅读." 一.目录结构 上图是对vue的代码的所有目录进行的梳理,其中源码位于src目录下,下面对src下的目录进行介绍. compiler 该目录是编译相关的代码,即将 template 模板转化成 render 函数的代码. vue 提供了 render 函数,render 函数作用是用来创建 VNode,但在平时开发中,绝大多数情况下使用 template 来创建 H

  • 深入解析Vue源码实例挂载与编译流程实现思路详解

    在正文开始之前,先了解vue基于源码构建的两个版本,一个是 runtime only ,另一个是 runtime加compiler 的版本,两个版本的主要区别在于后者的源码包括了一个编译器. 什么是编译器,百度百科上面的解释是 简单讲,编译器就是将"一种语言(通常为高级语言)"翻译为"另一种语言(通常为低级语言)"的程序.一个现代编译器的主要工作流程:源代码 (source code) → 预处理器 (preprocessor) → 编译器 (compiler) →

  • 解析MyBatis源码实现自定义持久层框架

    目录 自定义框架设计 自定义框架实现 使用端 框架端 自定义框架设计 使用端 : 提供核⼼配置⽂件: sqlMapConfig.xml : 存放数据源信息,引⼊mapper.xml Mapper.xml : sql语句的配置⽂件信息 框架端: 1.读取配置⽂件 读取完成以后以流的形式存在,我们不能将读取到的配置信息以流的形式存放在内存中,不好操作,可以创建JavaBean来存储 (1)Configuration : 存放数据库基本信息.Map<唯⼀标识,Mapper>, 唯⼀标识:namesp

  • 解析从源码分析常见的基于Array的数据结构动态扩容机制的详解

    本文的写作冲动来源于今晚看到的老赵的一则微博"大家知道System.Collections.Generic.List<T>是一种什么样的数据结构?内部的元素是怎么存放的?还有Dictionary<TKey,TValue>呢?-". 查了一下书,如果参考数据结构和算法里介绍的线性表合哈希表的特点,非常官方的答案就类似:List<T>是一种线性的内存连续分配的存储结构,元素是顺序存放的:它的优点是内存连续分配,相对节省空间,在设定长度范围内增加元素开销很

随机推荐