PHP 采集心得技巧

1.获取远程文件源代码(file_get_contents或用fopen).
2.分析代码得到自己想要的内容(这里用正规匹配,一般是得到分页)。
3.跟根得到的内容进行下载入库等操作。

  在这里第二步有可能要重复的操作好几次,比如说要先分析一下分页地址,在分析一下内页的内容才能取得我们想要的东西。
  代码:
  记的以前发部过部分的代码今天我在这里在简单的发部一下
  复制PHP内容到剪贴板
  PHP代码:
@$nl=file_get_contents($rs['url']);//抓取远程内容
preg_match_all("/var url = "gameswf/(.*?).swf";/is",$nl,$connect);//进行正规匹配取得自己要的内容
mysql_query("insert ......插入数据库部分");
  上面的代码就是所有采集要用到的代码了,当然大家也可以用fope来作,我个人喜欢用file_get_contents。
  下面在共享一下我的下载图片flash到本地的办法,太简单了两行代码
  PHP代码:


代码如下:

if(@copy($url,$newurl)){
echo 'ok';
}

  在论坛上以前还发过一个图片下载函数这会也放上来给大家
  PHP代码:


代码如下:

/*本存图片函数*/
function getimg($url,$filename){
    /*判断图片的url是否为空,如果为空停止函数*/
    if($url==""){
        return false;
    }
    /*取得图片的扩展名,存入变量$ext中*/
    $ext=strrchr($url,".");
    /*判断是否是合法的图片文件*/
  if($ext!=".gif" && $ext!=".jpg"){
        return false;
    }
    /*读取图片*/
    $img=file_get_contents($url);
    /*打开指定的文件*/
    $fp=@fopen($filename.$ext,"a");
    /*写入图片到指点的文件*/
    fwrite($fp,$img);
    /*关闭文件*/
    fclose($fp);
    /*返回图片的新文件名*/
    return $filename.$ext;
}

  共享一下个人的采集心德:
  1.不采那些作防盗链了的站,其实可以作假来路但是这样的站采集成本太高
  2.采集尽量快的站,最好在本地进行采集
  3.采集时有很多时候可以先把一部分数据存入数据库,等以后进行下一步的处理。
  4.采集的时候一定要作好出错处理,我一般都是如果采集三次没有成功就跳过。以前经常就因为一条内容不能采就卡在那里一直的采。
  5.入库前一定要作好判断,检查内容的合法,过滤不必要的字符串。

(0)

相关推荐

  • PHP 采集心得技巧

    1.获取远程文件源代码(file_get_contents或用fopen). 2.分析代码得到自己想要的内容(这里用正规匹配,一般是得到分页). 3.跟根得到的内容进行下载入库等操作. 在这里第二步有可能要重复的操作好几次,比如说要先分析一下分页地址,在分析一下内页的内容才能取得我们想要的东西. 代码: 记的以前发部过部分的代码今天我在这里在简单的发部一下 复制PHP内容到剪贴板 PHP代码: @$nl=file_get_contents($rs['url']);//抓取远程内容 preg_ma

  • 关于使用axios的一些心得技巧分享

    本文主要跟大家介绍了关于使用axios的一些心得技巧,分享出来供大家参考学习,下面来一起看看详细的介绍: 一.带cookie请求 axios默认是请求的时候不会带上cookie的,需要通过设置withCredentials: true来解决. 二.使post请求发送的是formdata格式数据 首先必须设置请求头 //可以通过这种方式给axios设置的默认请求头 axios.defaults.headers = { "Content-Type": "application/x

  • Google Adsense优化心得

    本文主要讲述笔者投放Google Adsense的一些心得技巧,希望能对看到本文的你有所裨益.另外,本文的行文风格会趋向于简单明了,不介绍过多的理论知识. 广告单元位置:我个人喜欢将广告单元放置在访问者的第一视觉聚集地的旁边,这样既不过分耽误用户浏览又能获得很好的关注度(当然不放置广告就不会阻碍用户阅读,但是我们是站长得挣钱嘛). 按照上述说法,对于新闻资讯类网站,广告单元可以选择正方形,建议放置在正文的右侧,被正文环绕:对于小说类文章内容较长的网站,可以考虑选择横幅广告,放置在文章分页链接上下

  • Javascript中indexOf()和lastIndexOf应用方法实例

    indexOf()方法 indexOf() 方法可返回某个指定的字符串值在字符串中首次出现的位置. 注释:indexOf() 方法对大小写敏感! 注释:如果要检索的字符串值没有出现,则该方法返回 -1. 用之前的charAt()方法 var str ='www.webclks.com/archives/3309'; for(var i=0; i<str.length; i++){ if(str.charAt(i)==='/'){ alert(i); } } indexOf()方法 var str

  • 关于axios如何全局注册浅析

    前言 最近用 Vue 写项目的时候,用到 axios ,因为 axios 不能用 Vue.use() (详细介绍可以参考这篇文章),所以在每个 .vue 文件中使用 axios 时就需要 import , .vue 文件少的话还好说,多的话未免有点麻烦. 后来想了想,能不能直接把 axios 加到 Vue 的原型中,这样就达到了全局注册了.下面话不多说了,来一看看详细的介绍吧. 方法如下: 1. 首先在 main.js 中引入 axios import Vue from 'vue' import

  • 15个值得开发人员关注的jQuery开发技巧和心得总结【经典收藏】

    本文总结述了15个值得开发人员关注的jQuery开发技巧和心得.非常精辟实用!分享给大家供大家参考,具体如下: 在这篇文章中,我们将介绍15个让你的jQuery更加有效的技巧,大部分关于性能提升的,希望大家能够喜欢! 1. 尽量使用最新版本的jQuery类库 jQuery项目中使用了大量的创新.最好的方法来提高性能就是使用最新版本的jQuery.每一个新的版本都包含了优化的bug修复.对我们来说唯一要干的就是修改tag,何乐而不为呢? 我们也可以使用免费的CDN服务,例如, Google来存放j

  • curl实现站外采集的方法和技巧

    选择curl的理由 关于curl与file_get_contents,摘抄一段通俗易懂的对比:file_get_contents其实是一堆内置的文件操作函数的合并版本,比如file_exists,fopen,fread,fclose,专门提供给懒人用的,而且它主要是用来对付本地文件的,但又是因为懒人的原因,同时加入了对网络文件的支持:curl是专门用来进行网络交互的库,提供了一堆自定义选项,用来应对不同的环境,稳定性自然要大于file_get_contents. 使用方法 1.开启curl支持

  • 基于JavaScript 性能优化技巧心得(分享)

    JavaScript 作为当前最为常见的直译式脚本语言,已经广泛应用于 Web 应用开发中.为了提高Web应用的性能,从 JavaScript 的性能优化方向入手,会是一个很好的选择. 本文从加载.上下文.解析.编译.执行和捆绑等多个方面来讲解 JavaScript 的性能优化技巧,以便让更多的前端开发人员掌握这方面知识. 什么是高性能的 JavaScript 代码? 尽管目前没有高性能代码的绝对定义,但却存在一个以用户为中心的性能模型,可以用作参考:RAIL模型. 响应 如果你的应用程序能在1

  • vue开发心得和技巧分享

    这个系列记录我在一年vue开发中总结的一些经验和技巧. 利用Object.freeze()提升性能 Object.freeze()是ES5新增的特性,可以冻结一个对象,防止对象被修改. vue 1.0.18+对其提供了支持,对于data或vuex里使用freeze冻结了的对象,vue不会做getter和setter的转换. 如果你有一个巨大的数组或Object,并且确信数据不会修改,使用Object.freeze()可以让性能大幅提升.在我的实际开发中,这种提升大约有5~10倍,倍数随着数据量递

  • 基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

    1.使用curl实现站外采集 具体请参考我上一篇笔记:http://www.jb51.net/article/46432.htm 2.编码转换首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码: 具体使用方法: 复制代码 代码如下: //源字符是$str //以下已知原编码为GBK,转换为utf-8 mb_convert_encoding($str, "UTF-8", "GBK"); //以下未知原编码,通过auto自

随机推荐