snoopy PHP版的网络客户端提供本地下载
magpierss中就用到了snoopy,这让我有点兴趣去研究下这个咚咚。再SF上,找到了这个源代码。居然就是一个类,但不要笑看哦,功能可是很强大的。
官方的简介,我翻译了下(汗。。。最近老是充当翻译的角色)
snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies
下面是简单的例子,比如说我们抓取我的blog的文字
<?
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchtext("http://www.phpobject.net/blog");
echo $snoopy->results;
?>
^_^,不错把,在比如抓取链接
<?
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchlinks("http://www.phpobject.net/blog");
print_r($snoopy->results);
?>
嘿嘿,效果不错把,而且全部都是我们需要的url,而没有那种/blog/read.php/85.htm那种东西。
另外提交数据那些稍后测试。。。
yuanma/php/Snoopy-1.2.3.tar.gz本地下载
相关推荐
-
PHP采集类snoopy详细介绍(snoopy使用教程)
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程. Snoopy的一些特点: 抓取网页的内容 fetch 抓取网页的文本内容 (去除HTML标签) fetchtext 抓取网页的链接,表单 fetchlinks fetchform 支持代理主机 支持基本的用户名/密码验证 支持设置 user_agent, referer(来路), cookies 和 header content(头文件) 支持
-
PHP采集利器 Snoopy 试用心得
Snoopy是什么? (下载snoopy) Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务. Snoopy的一些特点: * 方便抓取网页的内容 * 方便抓取网页的文本内容 (去除HTML标签) * 方便抓取网页的链接 * 支持代理主机 * 支持基本的用户名/密码验证 * 支持设置 user_agent, referer(来路), cookies 和 header content(头文件) * 支持浏览器转向,并能控制转向深度 * 能把网页中的链接扩展
-
snoopy 强大的PHP采集类使用实例代码
下载地址: http://www.jb51.net/codes/33397.html Snoopy的一些特点: 1抓取网页的内容 fetch 2 抓取网页的文本内容 (去除HTML标签) fetchtext 3抓取网页的链接,表单 fetchlinks fetchform 4 支持代理主机 5支持基本的用户名/密码验证 6 支持设置 user_agent, referer(来路), cookies 和 header content(头文件) 7支持浏览器重定向,并能控制重定向深度 8能把网页中的
-
PHP怎样用正则抓取页面中的网址
前言 链接也就是超级链接,是从一个元素(文字.图片.视频等)链接到另一个元素(文字.图片.视频等).网页中的链接一般有三种,一种是绝对URL超链接,也就是一个页面的完整路径:另一种是相对URL超链接,一般都链接到同一网站的其他页面:还有一种是页面内的超链接,这种一般链接到同一页面内的其他位置. 搞清楚了链接的种类,就知道要抓链接,主要还是绝对URL超链接和相对URL超链接.要写出正确的正则表达式,就必须要了解我们查找的对象的模式. 先说绝对链接,也叫作URL(Uniform Resource L
-
php结合正则批量抓取网页中邮箱地址
php如何抓取网页中邮箱地址,下面我就给大家分享一个用php抓取网页中电子邮箱的实例. <?php $url='http://www.jb51.net'; //要采集的网址 $content=file_get_contents($url); //echo $content; function getEmail($str) { //$pattern = "/([a-z0-9]*[-_\.]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3
-
基于Snoopy的PHP近似完美获取网站编码的代码
先要到网上下载Snoopy.class.php 调用方法: 复制代码 代码如下: <?php require 'lib/Snoopy.class.php'; require 'lib/WebCrawl.class.php';//包含下面代码 $go=new WebCrawl('http://www.baidu.com'); echo $go->getCharset(); ?> 复制代码 代码如下: <?php class WebCrawl { private $url; priva
-
php中Snoopy类用法实例
本文实例讲述了php中Snoopy类用法.分享给大家供大家参考.具体分析如下: 这里演示了php中如何通过Snoopy抓取网页信息 snoopy类的下载地址:http://sourceforge.net/projects/snoopy/ /* You need the snoopy.class.php from http://snoopy.sourceforge.net/ */ include("snoopy.class.php"); $snoopy = new Snoopy; //
-
php基于Snoopy解析网页html的方法
本文实例讲述了php基于Snoopy解析网页html的方法.分享给大家供大家参考.具体实现方法如下: set_time_limit(0); $user = array('20517', '20518'); header("content-Type: text/html; charset=utf-8"); require_once './Snoopy.php'; $snoopy = new Snoopy(); //$uri = 'http://www.juzimi.com/meitume
-
php使用curl和正则表达式抓取网页数据示例
利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说. 依赖项:curl 可以简单的看下,里面用到了curl ,正则表达式,ajax等技术,适合新手看看.在本地测试,必须保证联网并且确保php开启curl的mode SpiderTools.class.php 复制代码 代码如下: <?php session_start(); //封装成类 开启这些自动抓取文章 #header("Refresh:30;http://www.test.co
-
PHP采集类Snoopy抓取图片实例
用了两天php的Snoopy这个类,发现很好用.获取请求网页里面的所有链接,直接使用fetchlinks就可以,获取所有文本信息使用fetchtext(其内部还是使用正则表达式在进行处理),还有其它较多的功能,如模拟提交表单等. 使用方法: 先下载Snoopy类,下载地址:http://sourceforge.net/projects/snoopy/ 先实例化一个对象,然后调用相应的方法即可获取抓取的网页信息 复制代码 代码如下: include 'snoopy/Snoopy.class.php
-
PHP正则表达式抓取某个标签的特定属性值的方法
php正则学了一些日子,抓了一些网站的数据,从而发现每次都自己写正则重新抓很麻烦,于是就想写一个抓取特定标签具有特定属性值的接口通用,直接上代码. //$html-被查找的字符串 $tag-被查找的标签 $attr-被查找的属性名 $value-被查找的属性值 function get_tag_data($html,$tag,$attr,$value){ $regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\
-
PHP正则+Snoopy抓取框架实现的抓取淘宝店信誉功能实例
本文实例讲述了PHP正则+Snoopy抓取框架实现的抓取淘宝店信誉功能.分享给大家供大家参考,具体如下: <?php header("Content-Type:text/html;charset=gbk"); include "Snoopy.class.php"; $snoopy = new Snoopy; $snoopy->fetch("http://rate.taobao.com/user-rate-f01d9cb1245a22fcea47
随机推荐
- PHP动态输出JavaScript代码实例
- Ruby的字符串与数组求最大值的相关问题讨论
- 微信小程序 生命周期详解
- iOS客户端本地推送实现代码
- 谷歌浏览器不支持showModalDialog模态对话框的解决方法
- JS时间控制实现动态效果的实例讲解
- 去掉destoon资讯内容页keywords关键字自带的文章标题的方法
- ASP所有的Session变量获取实现代码
- PHP 时间日期操作实战
- python文件与目录操作实例详解
- JavaScript实现列表分页功能特效
- hbase访问方式之java api
- Linux tar 命令出现 Cowardly refusing to create an empty archive 错误解决办法
- nodejs接入阿里大鱼短信验证码的方法
- jQuery父级以及同级元素查找介绍
- jQuery性能优化28条建议你值得借鉴
- 锋利的jQuery 要点归纳(三) jQuery中的事件和动画(下:动画篇)
- 技术入股创业一年,家庭收入变成负5万
- Java字符串去除特殊字符内容的实例
- python爬虫 模拟登录人人网过程解析