正则获取图片地址 链接地址

代码如下:

reg = /<[img|href][^>]*src\s*=\s*('|")?([^'">]*)\1([^>])*>/ig

正则获取图片地址

一、问题:

采集的过程中遇到一个问题:从数据库里读出来的图片没有正常显示,分析后发现是数据库里的图片以网站根目录为相对路径方式存储,图片地址如:/uploads/allimg/090403/012F31N9-1.jpg,原来做的读取图片是以http://开关的URL绝对图片获取,所以采集中出现以根目录开始的图片地址采集失败。

二、解决方案:

分析HTML代码,显示图片定用<img>标签,写一个正则式获取<img>里的图片地址再加网站的网站转换为URL的绝对地址,接着的事情交给后面的代码(远程图片获取到本地)。

1) 完善解决方法,以“<img”开始写正规,但这个正式式比较难写要考虑“<img>”的属性、空格、多空格、单引号、双引号、不规范的属性引用(如单引号或双引号括起的属性值)等等。
2)应急解决方法,只要考虑“src=”属性开始的正则式,但这种方式存在不完善的地方,只要有“src=”出现在的都会被替换,出现“src="的可能性有:javascript,文本里出现的"src"等。但这些是比较少的,再加上一个图片格式做正则限定,出现被误替换的概率会更少。

三、实现代码:

考虑到第一种方法的难度暂时没有写,这里第二种应急解决方法实现(实现涉及的正则式内容这里不做讲解和分析,正则式的知识内容请google或baidu ^v^):

代码如下:

<?php
//测试样式,考虑多种情况下的正则式。
$body = <<<HTML
<P align=center>1<img width="60" height="90px" src='http://www.chongwen.com/uploads/allimg/090403/012F35310-0.jpg'></P>
<P align=center>2<img src='/uploads/allimg/090403/012F31N9-1.jpg' border="0"></P>
<P align=center>3<img src='/uploads/allimg/090403/012F3D13-2.jpg'style="width:100px"> </P>
<P align=center>4<img width="60" height="90px" src= "http://www.chongwen.com/uploads/allimg/090403/012F35310-0.jpg"></P>
<P align=center>5<img src=" /uploads/allimg/090403/012F31N9-1.jpg " border="0"></P>
<P align=center>6<img src= " /uploads/allimg/090403/012F31N9-1.jpg " border="0"></P>
<P align=center>7<img src= /uploads/allimg/090403/012F3D13-2.jpg style="width:100px"> </P>
HTML;

//网站的地址
$str='src=/'http://www.chongwen.com/';
$body=preg_replace('/src/s*?=/s*?[/"|/']?/s*?//(.+?/.(?:jpg|gif|png|bmp))(/"|/'|/s)*?/s*?/is',"$str$1 '",$body);
echo $body;
?>

(0)

相关推荐

  • 用正则表达式替换图片地址img标签

    开始想到的解决方法是: 复制代码 代码如下: content.replace(/<img [^>]*src=['"]([^'"]+)[^>]*>/gi, function (match) {    console.log(match);}); 输出结果是: 复制代码 代码如下: <img src="http://www.jb51.net/images/logo.gif" alt="" width="142&

  • PHP提取字符串中的图片地址[正则表达式]

    复制代码 代码如下: <?php $str='<p><img border="0" src="upfiles/2009/07/1246430143_1.jpg" alt=""/></p>'; $pattern="/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/"; preg_

  • 正则获取图片地址 链接地址

    复制代码 代码如下: reg = /<[img|href][^>]*src\s*=\s*('|")?([^'">]*)\1([^>])*>/ig 正则获取图片地址 一.问题: 采集的过程中遇到一个问题:从数据库里读出来的图片没有正常显示,分析后发现是数据库里的图片以网站根目录为相对路径方式存储,图片地址如:/uploads/allimg/090403/012F31N9-1.jpg,原来做的读取图片是以http://开关的URL绝对图片获取,所以采集中出现以

  • PHP正则获取页面所有图片地址

    <?php //取得页面所有的图片地址 function getimages($str) { $match_str = "/((http://)+([^ rn()^$!`"'|[]{}<>]*)((.gif)|(.jpg)|(.bmp)|(.png)|(.GIF)|(.JPG)|(.PNG)|(.BMP)))/"; preg_match_all ($match_str,$str,$out,PREG_PATTERN_ORDER); return $out; }

  • 小谈php正则提取图片地址

    迷上了正则,不断尝试着新花招,首先感谢TNA 的非完全输出RSS,然后再次感谢SH的强迫性学习.没有TNA,我不会去看正则,更不知道世界上有种这么牛的表达式:不是SH的死活说他不懂不知道,我也不会硬着头皮去琢磨,去改进.达到同一个目的,正则的表达方式可以不唯一,没有做不到,只有你没想到.可以这样说吧,正则就是玩设定规律,我大爱这种东西.没有比设定规律筛选东西更让我兴奋.感到awesome的了. 分享一下在php环境下使用正则提取图片地址的一些小心得: 图片网址规范的html代码无非就是 复制代码

  • php正则提取html图片(img)src地址与任意属性的方法

    简单版: <?php header("Content-Type: text/html;charset=utf-8"); $str = '<div class="ui-block-a" align="center"> <a href="online-39.html" rel="external nofollow" ><img class="lazy" w

  • Java使用正则表达式匹配获取链接地址的方法示例

    本文实例讲述了Java使用正则表达式匹配获取链接地址的方法.分享给大家供大家参考,具体如下: 获取页面中字符串的url地址我们都会使用正则表达式来匹配获取了,下面我来给大家总结几个匹配获取链接地址示例. 1.正则表达式中Matcher中find()方法的应用. 2.String对象中的 replaceAll(String regex,String replacement) 方法的使用.通过这个方法去除了不必要的字符串,从而得到了需要的网址和链接文字 例1.超简单的 String content

  • ASP.NET通过第三方网站Bitly实现短链接地址程序

    发微博很久了,或许是我之前没注意,现在特别关注那个微博中的图片链接和URL链接,总给我看不懂但是又那么短的感觉,反正不是我上传的地址,其实这里使用一个短链接服务功能,这里拿出来晒晒. 这里看看是指向淘宝的一个商品页面,链接地址是这样的 ,但是现在在微博中变成了红圈表名的那个样子,似乎看不懂了,而且你点击之后还是到你原有的页面.这里就是使用了短链接程序服务,包括图片等等都是这样,可以缩短url长度. Bitly 是世界上最流行的短链接服务,而且已经免费开放所有功能.点击访问官网 Bitly.com

  • php匹配字符中链接地址的方法

    本文实例讲述了php匹配字符中链接地址的方法.分享给大家供大家参考.具体如下: 判断一个字符串是否含有超级链接,代码如下: 复制代码 代码如下: $str="ssdsf<a target='_blank' href='http://www.jb51.net/' >sdf</a>sdfss"; if(preg_match("/<a/s+href=[^>]*>|<//[^a]*a[^>]*>/i",$str))

  • Promise改写获取萤石云直播地址接口示例

    目录 改写原因 技术选择 源码 改写原因 通常情况下,萤石云的直播地址都是在服务端进行获取,然后存储到数据库中,但是萤石云官方默认同一个ip最多只能使用5个appKey,否则会爆出appKey数量超出安全限制的错误提示. 因此改为前端进行api的调用,来分散ip和appKey之间的绑定(这一点对开发者而言其实意义并不是很大,应为开发者的ip是固定的,测试过程中迟早也会超出数量限制). 技术选择 需求明确之后,有两种方案可供选择. ajax回调 Promise异步编程解决方案 整个直播链接的获取流

  • C# 获取本机IP地址(IPv4和IPv6)

    目录 前言: 操作步骤 一,创建文件 二,窗体设计 三,代码设计 四 效果展示 总结: 前言: 在我们使用C# WinForm中,我们有时候是需要或者自己本机的IP地址进行处理,今天我们学习一下如何使用C# Winform获取主机的IP地址.现在博主手把手教你获取,很简单的. 操作步骤 一,创建文件 创建Winform窗体文件,这里我就不多做介绍,你们可以看看我之前的文章,都是保姆级的. 二,窗体设计 我们从winform 工具箱拖动textbox,和一个按钮,对按钮重命名 三,代码设计 3.1

  • asp之GetArray提取链接地址,以$Array$分隔的代码

    '================================================== '函数名:GetArray '作  用:提取链接地址,以$Array$分隔 '参  数:ConStr ------提取地址的原字符 '参  数:StartStr ------开始字符串 '参  数:OverStr ------结束字符串 '参  数:IncluL ------是否包含StartStr '参  数:IncluR ------是否包含OverStr '===============

随机推荐