ASP获取网页全部图片地址并保存为数组的正则

目前还是有BUG的,最新的测试页面在: http://www.reallydo.com/getimg.asp
正则分析页面在: http://jorkin.reallydo.com/article.asp?id=380 
发现BUG请在后面留言,谢谢.
1.31修正
src=后面有空格不能正确匹配.已修正.
src=''为空时出错.已修正.
发现BUG: 图片路径有多个空格时只能保留一个.未修正.
2.18修正
图片路径有多个空格时只能保留一个的BUG.已修正.


代码如下:

<% 
'功能:获取全部图片地址,保存到一个数组. 
'来源:http://jorkin.reallydo.com/article.asp?id=448 
'需要ReplaceAll函数:http://jorkin.reallydo.com/article.asp?id=406

Function getIMG(sString) 
    Dim sReallyDo, regEx, iReallyDo 
    Dim oMatches, cMatch 
    '//定义一个空数组 
    iReallyDo = -1 
    ReDim aReallyDo(iReallyDo) 
    If IsNull(sString) Then 
        getIMG = "" 
        Exit Function 
    End If 
    '//格式化HTML代码 
    '//将每个 <img 换行 方便正则替换 
    sReallyDo = sString 
    On Error Resume Next 
    sReallyDo = Replace(sReallyDo, vbCr, " ") 
    sReallyDo = Replace(sReallyDo, vbLf, " ") 
    sReallyDo = Replace(sReallyDo, vbTab, " ") 
    sReallyDo = Replace(sReallyDo, "<img ", vbCrLf & "<img ", 1, -1, 1) 
    sReallyDo = Replace(sReallyDo, "/>", " />", 1, -1, 1) 
    sReallyDo = ReplaceAll(sReallyDo, "= ", "=", True) 
    sReallyDo = ReplaceAll(sReallyDo, "> ", ">", True) 
    sReallyDo = Replace(sReallyDo, "><", ">" & vbCrLf & "<") 
    sReallyDo = Trim(sReallyDo) 
    On Error GoTo 0 
    Set regEx = New RegExp 
    regEx.IgnoreCase = True 
    regEx.Global = True 
    '//去除onclick,onload等脚本 
    regEx.Pattern = "\s[on].+?=([\""|\'])(.*?)\1" 
    sReallyDo = regEx.Replace(sReallyDo, "") 
    '//将SRC不带引号的图片地址加上引号 
    regEx.Pattern = "<img.*?\ssrc=([^\""\'\s][^\""\'\s>]*).*?>" 
    sReallyDo = regEx.Replace(sReallyDo, "<img src=""$1"" />") 
    '//正则匹配图片SRC地址 
    regEx.Pattern = "<img.*?\ssrc=([\""\'])([^\""\']+?)\1.*?>" 
    Set oMatches = regEx.Execute(sReallyDo) 
    '//将图片地址存入数组 
    For Each cMatch in oMatches 
        iReallyDo = iReallyDo + 1 
        ReDim Preserve aReallyDo(iReallyDo) 
        aReallyDo(iReallyDo) = regEx.Replace(cMatch.Value, "$2") 
    Next 
    getIMG = aReallyDo 
End Function 
%>

(0)

相关推荐

  • ASP获取网页全部图片地址并保存为数组的正则

    目前还是有BUG的,最新的测试页面在: http://www.reallydo.com/getimg.asp 正则分析页面在: http://jorkin.reallydo.com/article.asp?id=380  发现BUG请在后面留言,谢谢. 1.31修正 src=后面有空格不能正确匹配.已修正. src=''为空时出错.已修正. 发现BUG: 图片路径有多个空格时只能保留一个.未修正. 2.18修正 图片路径有多个空格时只能保留一个的BUG.已修正. 复制代码 代码如下: <%  '

  • Python获取网页上图片下载地址的方法

    本文实例讲述了Python获取网页上图片下载地址的方法.分享给大家供大家参考.具体如下: 这里获取网页上图片的下载地址是正在写的数据采集中的一段,代码如下: 复制代码 代码如下: #!/user/bin/python3 import urllib2 from HTMLParser import HTMLParser class MyHtmlParser(HTMLParser):     links = []     def handle_starttag(self, tag, attrs):  

  • 使用jquery获取网页中图片高度的两种方法

    使用jquery获取网页中图片的高度其实很简单,有两种常用的方法都可以打到我们的目的 复制代码 代码如下: $("img").whith();(返回纯数字) $("img").css("width");(返回字符串:数字+"px") 但是有时候会遇到返回0的情况,上面方法返回值竟然是0或者0px,很让人诧异 方法一 在很早之前,我使用的解决方法,这也是我的师傅告诉我的解决方法:在你需要获取到的图片的<img>标签上

  • 使用C#正则表达式获取必应每日图片地址

    微软的Bing搜索引擎首页每天都会提供了一些有趣的图片,下面使用正则表达式获取图片的地址,不管是在手机app还是在网站上都是很好的图片素材,而且每天更新,非常不错. 首先访问微软的API,该地址返回的是xml文本,获取xml文本后使用正则表达式匹配url节点中的内容,加上必应主页链接即可获得图片的真实网址.下面是获取网址的全部代码. string InfoUrl = "http://cn.bing.com/HPImageArchive.aspx?idx=0&n=1"; Http

  • php获取网页中图片、DIV内容的简单方法

    1.获取网页中所有的图片: 复制代码 代码如下: <?php   //取得指定位址的內容,并储存至 $text  $text=file_get_contents('http://www.jb51.net/');      //取得所有img标签,并储存至二维数组 $match 中   preg_match_all('/<img[^>]*>/i', $text, $match);     //打印出match   print_r($match);   ?> 2.获取网页中的第一

  • ASP 获取腾讯IP地址的代码

    提问: 复制代码 代码如下: <script type=text/javascript src=http://fw.qq.com/ipaddress></script> <script type=text/javascript> var hehe1=IPData[2] var hehe2=IPData[3] alert(hehe1); alert(hehe2); document.write(IPData.join(' ')); </script> 如何用A

  • php获取CSS文件中图片地址并下载到本地的方法

    本文实例讲述了php获取CSS文件中图片地址并下载到本地的方法.分享给大家供大家参考. 具体实现代码如下: 复制代码 代码如下: /**  * 获取CSS中图片地址,并且保存到本地  */ class getInCssImage {            /**           *  图片保存下来          * @param $cssUrl css的url地址          * @param $dir 保存图片的目录          * @return void        

  • 基于python实现获取网页图片过程解析

    环境:python3, 要安装bs4这个第三方库 获取请求头的方法 这里使用的是Chrome浏览器. 打开你想查询的网站,按F12,或者鼠标右键一下选择检查.会弹出如下的审查元素页面: 然后点击上方选项中的Network选项: 此时在按Ctrl+R: 选择下方框中的第一个,单击: 选择Headers选项,其中就会有Request Headers,包括你需要的信息. 介绍:这个程序是用来批量获取网页的图片,用于新手入门 注意:由于是入门的程序在获取某些网页的图片时会出问题!!!!! import

  • 用asp自动解析网页中的图片地址

    一,取得原页中的图片的地址. <%function PicStr(str) Set objRegExp = New Regexp '设置配置对象 objRegExp.IgnoreCase = True '忽略大小写 objRegExp.Global = True '设置为全文搜索 objRegExp.Pattern = "<IMG.+?>" '为了确保能准确地取出图片地址所以分为两层配置:首先找到里面的<IMG>标签,然后再取出里面的图片地址后面的geti

  • python抓取网页中图片并保存到本地

    在上篇文章给大家分享PHP源码批量抓取远程网页图片并保存到本地的实现方法,感兴趣的朋友可以点击了解详情. #-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file_extension(file): return os.path.splitext(file)[1] '''創建文件目录,并返回该目录''' def mkdir(path): # 去除左右两边的

随机推荐