正值表达式匹配html标签的属性值

2025-03-28 21:11:13

正则表达式是做文本解析工作必不可少的技能。如Web服务器日志分析，网页前端开发等。很多高级文本编辑器都支持正则表达式的一个子集，熟练掌握正则表达式，经常能够使你的一些工作事半功倍。例如统计代码行数，只需一个正则就搞定。嵌套Html标签的匹配是正则表达式应用中一个比较难的话题，因为它涉及到的正则语法比较多，也比较难。因此也就更有研究的价值。

今天由于工作的需求，需要获取html标签的属性值，立即想到了正则表达式，标签如下：

<circle id="ap_test" cx="200" cy="2000" r="2" stroke="black" stroke-width="0" fill="red"/>
<circle id="ap_test" cx="201" cy="2001" r="2" stroke="black" stroke-width="0" fill="red"/>
<circle id="ap_test" cx="202" cy="2002" r="2" stroke="black" stroke-width="0" fill="red"/>
<circle id="ap_test" cx="203" cy="2003" r="2" stroke="black" stroke-width="0" fill="red"/>

需要获取<circle />标签的cx、cy的属性值，想了一会写出了一个：

$circle是上面的circle标签的内容

preg_match_all('/<\s*circle\s+[^>]*?cx\s*=\s*(\'|\")(.*?)\\1[^>]*?cy\s*=\s*(\'|\")(.*?)\\1[^>]*?\/?\s*>/i', $circle, $arr);
var_dump($arr);

$arr[2]是cx的值，$arr[4]是cy的值.

下面给大家介绍下正则匹配闭合HTML标签（支持嵌套）

任何复杂的正则表达式都是由简单的子表达式组成的，要想写出复杂的正则来，一方面需要有化繁为简的功底，另外一方面，我们需要从正则引擎的角度去思考问题。关于正则引擎的原理，推荐《Mastering Regular Expression》中文名叫《精通正则表达式》。挺不错的一本书。

OK，先确定我们要解决的问题——从一段Html文本中找出特定id的标签的innerHTML。

这里面最大的难点就是，Html标签是支持嵌套的，怎么能够找到指定标签相对应的闭合标签呢？

我们可以这样想，先匹配最前面的起始标签，假设是div吧（<div），接着一旦遇到嵌套div，就“压入堆栈”，后面如果遇到div闭合标签了，就“弹出堆栈”。如果遇到闭合标签的时候，堆栈里面已经没有东西了，那么匹配结束，此结束标签为正确的闭合标签。

我之所以能够这样去思考，是因为我了解过正则的特性，我知道正则中的平衡组能够实现我刚才说的“堆栈”操作。所以，如果我们要编写复杂正则表达式，需要对正则的一些高级特性至少有所了解，这样我们思考问题才有个方向。

================================

匹配任意闭合HTML标签的正则表达式：

<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

如果只想匹配div标签，可以使用下面的正则表达式：

<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

是的，你可以把div修改成任意你想要匹配的HTML标签

如果想同时匹配多个HTML标签，可以使用下面的正则表达式：
<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>
你还可以继续添加更多要匹配的标签

如果想匹配包含ID的标签，可以使用下面的正则表达式：

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)

这个正则匹配任意id为footer的HTML标签

正则表达式替换html元素属性的方法

正则表达式替换任意html元素任意属性,或增加任意属性. /** * 替换html中任意tag内任意attr值 * @param src_str * @param tag * @param attr * @param val * @returns {*} */ replace_html_tag_attr: function(src_str, tag, attr, val) { if(typeof src_str === 'undefined' || typeof tag === 'undefin
用正则查找html中有id属性的html标签

如: 字符串<div style="float:left" id="ab">123213</div><div class="a123">21314423</div> 不匹配<div class="a123">--</div>的内容写这个例子可以用 <[a-zA-Z0-9][^>]+?id=[^>]+?>.*?</div>
正值表达式匹配html标签的属性值

正则表达式是做文本解析工作必不可少的技能.如Web服务器日志分析,网页前端开发等.很多高级文本编辑器都支持正则表达式的一个子集,熟练掌握正则表达式,经常能够使你的一些工作事半功倍.例如统计代码行数,只需一个正则就搞定.嵌套Html标签的匹配是正则表达式应用中一个比较难的话题,因为它涉及到的正则语法比较多,也比较难.因此也就更有研究的价值. 今天由于工作的需求,需要获取html标签的属性值,立即想到了正则表达式,标签如下: <circle id="ap_test" cx="
Java基于正则表达式获取指定HTML标签指定属性值的方法

本文实例讲述了Java基于正则表达式获取指定HTML标签指定属性值的方法.分享给大家供大家参考,具体如下: 有时可能会有这样的需求,从HTML页面获取指定标签的指定属性值,可以通过第三方库解析来获取,但是这样相对比较麻烦! 如果使用正则表达式,那么就变得简单了.代码如下: package com.mmq.regex; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import
js addDqmForPP给标签内属性值加上双引号的函数

实现代码一: 给标签内属性值加上双引号 var addDqmForPP = function(shtml){ return shtml.replace(/( [^\=]*\=)(\s?[^\"\s\>]*)/ig,function(a,b,c,d,e){return (c)?(new RegExp("<[^>]*"+c.replace(/(\^|$|$|\[|\]|\{|\}|\?|\-|\\|\/|\||\$)/g,'\\$1')+"[^&g
python selenium 获取标签的属性值、内容、状态方法

获取标签内容使用element.attribute()方法获取dom元素的内容,如: dr = driver.find_element_by_id('tooltip') dr.get_attribute('data-original-title') #获取tooltip的内容 dr.text #获取该链接的text 获取标签属性 link=dr.find_element_by_id('tooltip') link.value_of_css_property('color') #获取toolti
python3爬虫获取html内容及各属性值的方法

今天用到BeautifulSoup解析爬下来的网页数据首先导入包from bs4 import BeautifulSoup 然后可以利用urllib请求数据记得要导包 import urllib.request 然后调用urlopen,读取数据 f=urllib.request.urlopen('http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html') response=f.read() 这里我们就不请求数据了,直接用本
PHP用正则匹配form表单中所有元素的类型和属性值实例代码

前言最近工作中遇到一个需求,需要在正则匹配页面中,所有可能存在的 form 表单的元素,可能有 input,action,select,textarea等等所有可能的元素,本文给出一个代码示例.感兴趣的朋友们可以参考学习. 实例代码如下假设页面 1.html 的网页源代码是: <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title>一个含有 form 表单
PHP正则表达式抓取某个标签的特定属性值的方法

php正则学了一些日子,抓了一些网站的数据,从而发现每次都自己写正则重新抓很麻烦,于是就想写一个抓取特定标签具有特定属性值的接口通用,直接上代码. //$html-被查找的字符串 $tag-被查找的标签 $attr-被查找的属性名 $value-被查找的属性值 function get_tag_data($html,$tag,$attr,$value){ $regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\
java正则表达式获取指定HTML标签的指定属性值且替换的方法

实例如下: public static String repDomain(String source, String domain, String element, String attr) { String img = ""; Pattern p_image; Matcher m_image; String regEx_img = "<" + element + "[^<>]*?\\s" + attr + "=['\
解决php 处理 form 表单提交多个 name 属性值相同的 input 标签问题

一问题在公司的开发过程中,遇到了一个问题:如何处理 form 表单提交了多个 name 属性值相同的 input 标签?源码如下(源码是在 form 表单之中的):  <div class="address_item"> <p> <label> <input type="hidden" name="express_price&quo
JS和jQuery通过this获取html标签中的属性值(实例代码)

废话不多说了,具体代码如下所示: <html> <head> <script type="text/javascript" src="jquery-1.10.2.min.js"></script> <script type="text/javascript"> /** JQUERY 通过当前标签属性名,获取属性的值 */ function attrsByJquery(obj){ var

正值表达式匹配html标签的属性值

相关推荐

随机推荐