php cURL和Rolling cURL并发方式比较

在实际项目或者自己编写小工具(比如新闻聚合,商品价格监控,比价)的过程中, 通常需要从第3方网站或者API接口获取数据, 在需要处理1个URL队列时, 为了提高性能, 可以采用cURL提供的curl_multi_*族函数实现简单的并发。
本文将探讨两种具体的实现方法, 并对不同的方法做简单的性能对比.
1. 经典cURL并发机制及其存在的问题
经典的cURL实现机制在网上很容易找到, 比如参考PHP在线手册的如下实现方式:


代码如下:

function

classic_curl($urls,
$delay)
 {

$queue

= curl_multi_init();

$map

= array();

foreach

($urls

as
$url)
 {

//
 create cURL resources

$ch

= curl_init();

//
 set URL and other appropriate options

curl_setopt($ch,
 CURLOPT_URL, $url);

curl_setopt($ch,
 CURLOPT_TIMEOUT, 1);

curl_setopt($ch,
 CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch,
 CURLOPT_HEADER, 0);

curl_setopt($ch,
 CURLOPT_NOSIGNAL, true);

//
 add handle

curl_multi_add_handle($queue,
$ch);

$map[$url]
 = $ch;

}

$active

= null;

//
 execute the handles

do

{

$mrc

= curl_multi_exec($queue,
$active);

}
while

($mrc

== CURLM_CALL_MULTI_PERFORM);

while

($active

> 0 && $mrc

== CURLM_OK) {

if

(curl_multi_select($queue,
 0.5) != -1) {

do

{

$mrc

= curl_multi_exec($queue,
$active);

}
while

($mrc

== CURLM_CALL_MULTI_PERFORM);

}

}

$responses

= array();

foreach

($map

as
$url=>$ch)
 {

$responses[$url]
 = callback(curl_multi_getcontent($ch),
$delay);

curl_multi_remove_handle($queue,
$ch);

curl_close($ch);

}

curl_multi_close($queue);

return

$responses;

}

首先将所有的URL压入并发队列, 然后执行并发过程, 等待所有请求接收完之后进行数据的解析等后续处理. 在实际的处理过程中, 受网络传输的影响, 部分URL的内容会优先于其他URL返回, 但是经典cURL并发必须等待最慢的那个URL返回之后才开始处理, 等待也就意味着CPU的空闲和浪费. 如果URL队列很短, 这种空闲和浪费还处在可接受的范围, 但如果队列很长, 这种等待和浪费将变得不可接受.
2. 改进的Rolling cURL并发方式
仔细分析不难发现经典cURL并发还存在优化的空间, 优化的方式时当某个URL请求完毕之后尽可能快的去处理它, 边处理边等待其他的URL返回, 而不是等待那个最慢的接口返回之后才开始处理等工作, 从而避免CPU的空闲和浪费. 闲话不多说, 下面贴上具体的实现:


代码如下:

function

rolling_curl($urls,
$delay)
 {

$queue

= curl_multi_init();

$map

= array();

foreach

($urls

as
$url)
 {

$ch

= curl_init();

curl_setopt($ch,
 CURLOPT_URL, $url);

curl_setopt($ch,
 CURLOPT_TIMEOUT, 1);

curl_setopt($ch,
 CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch,
 CURLOPT_HEADER, 0);

curl_setopt($ch,
 CURLOPT_NOSIGNAL, true);

curl_multi_add_handle($queue,
$ch);

$map[(string)
$ch]
 = $url;

}

$responses

= array();

do

{

while

(($code

= curl_multi_exec($queue,
$active))
 == CURLM_CALL_MULTI_PERFORM) ;

if

($code

!= CURLM_OK) { break;
 }

//
 a request was just completed -- find out which one

while

($done

= curl_multi_info_read($queue))
 {

//
 get the info and content returned on the request

$info

= curl_getinfo($done['handle']);

$error

= curl_error($done['handle']);

$results

= callback(curl_multi_getcontent($done['handle']),
$delay);

$responses[$map[(string)
$done['handle']]]
 = compact('info',
'error',
'results');

//
 remove the curl handle that just completed

curl_multi_remove_handle($queue,
$done['handle']);

curl_close($done['handle']);

}

//
 Block for data in / output; error handling is done by curl_multi_exec

if

($active

> 0) {

curl_multi_select($queue,
 0.5);

}

}
while

($active);

curl_multi_close($queue);

return

$responses;

}

3. 两种并发实现的性能对比
改进前后的性能对比试验在LINUX主机上进行, 测试时使用的并发队列如下:

http://a.com/item.htm?id=14392877692
http:/a.com/item.htm?id=16231676302
http://a.com/item.htm?id=5522416710
http://a.com/item.htm?id=16551116403
简要说明下实验设计的原则和性能测试结果的格式: 为保证结果的可靠, 每组实验重复20次, 在单次实验中, 给定相同的接口URL集合, 分别测量Classic(指经典的并发机制)和Rolling(指改进后的并发机制)两种并发机制的耗时(秒为单位), 耗时短者胜出(Winner), 并计算节省的时间(Excellence, 秒为单位)以及性能提升比例(Excel. %). 为了尽量贴近真实的请求而又保持实验的简单, 在对返回结果的处理上只是做了简单的正则表达式匹配, 而没有进行其他复杂的操作. 另外, 为了确定结果处理回调对性能对比测试结果的影响, 可以使用usleep模拟现实中比较负责的数据处理逻辑(如提取, 分词, 写入文件或数据库等).
性能测试中用到的回调函数为:


代码如下:

function

callback($data,
$delay)
 {

preg_match_all('/<h3>(.+)<\/h3>/iU',
$data,
$matches);

usleep($delay);

return

compact('data',
'matches');

}

数据处理回调无延迟时: Rolling Curl略优, 但性能提升效果不明显。

(0)

相关推荐

  • php curl模拟post请求小实例

    本机: 复制代码 代码如下: <?php$uri = "http://www.a.com/test.php";//这里换成你服务器的地址// 参数数组$data = array (  'name' => 'tanteng' // 'password' => 'password'); $ch = curl_init ();// print_r($ch);curl_setopt ( $ch, CURLOPT_URL, $uri );curl_setopt ( $ch, C

  • php curl模拟post提交数据示例

    复制代码 代码如下: <?header("Content-type: text/html; charset=utf8");/* * 提交请求* @param $header array 需要配置的域名等header设置 array("Host: devzc.com");* @param $data string 需要提交的数据 'user=xxx&qq=xxx&id=xxx&post=xxx'....* @param $url stri

  • php使用curl访问https示例分享

    为方便说明,先上代码吧 复制代码 代码如下: /**  * curl POST  *  * @param   string  url  * @param   array   数据  * @param   int     请求超时时间  * @param   bool    HTTPS时是否进行严格认证  * @return  string  */  function curlPost($url, $data = array(), $timeout = 30, $CA = true){ $cace

  • php使用curl检测网页是否被百度收录的示例分享

    复制代码 代码如下: <?php/** 检测百度是否收录网页 curl模式* @ param string $url传入的url* return int (1 收录 0 不收录)*/function checkBaidu($url){$url='http://www.baidu.com/s?wd='.$url; $curl=curl_init();curl_setopt($curl,CURLOPT_URL,$url);curl_setopt($curl,CURLOPT_RETURNTRANSFE

  • php使用curl模拟登录后采集页面的例子

    今天接到的功课是从一个网站获取商品库存,但是这个网站需要登录,我用fsockopen传递了整个header头都没用,只能求助于curl了.附带说一下curl模块的开启办法:(1)从php目录下拷贝:libeay32.dll,ssleay32.dll 到windows目录下.(2)打开php.ini,查找"extension_dir = xxxxx",确认后面的文件目录内有php_curl.dll文件.(3)同样是php.ini,查找"extension=php_curl.dl

  • 使用PHP curl模拟浏览器抓取网站信息

    官方解释curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP.curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies, 用户名/密码认证, 下载文件断点续传,上载文件断点续传, http

  • php curl_init函数用法

    无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库. PHP中的CURL函数库(Client URL Library Function) curl_close - 关闭一个curl会话curl_copy_handle - 拷贝一个curl连接资源的所有内容和参数curl_errno - 返回一个包含当前会话错误信息的数字编号curl_error - 返回一个包含当前会话错误信息的字符串curl_exec - 执

  • php curl post 时出现的问题解决

    在 a.php 中以 POST 方式向 b.php 提交数据,但是 b.php 下就是无法接收到数据,而 CURL 操作又显示成功,非常诡异.原来,"传递一个数组到CURLOPT_POSTFIELDS,cURL会把数据编码成 multipart/form-data,而然传递一个URL-encoded字符串时,数据会被编码成 application/x-www-form-urlencoded.",而和我一样对 CURL 不太熟悉的人在编写程序时,代码往往是下面的样子: 复制代码 代码如下

  • curl不使用文件存取cookie php使用curl获取cookie示例

    复制代码 代码如下: /*-----保存COOKIE-----*/$url = 'www.xxx.com'; //url地址$post = "id=user&pwd=123456"; //POST数据$ch = curl_init($url); //初始化curl_setopt($ch,CURLOPT_HEADER,1); //将头文件的信息作为数据流输出curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); //返回获取的输出文本流curl_se

  • php使用curl抓取qq空间的访客信息示例

    config.php 复制代码 代码如下: <?phpdefine('APP_DIR', dirname(__FILE__));define('COOKIE_FILE', APP_DIR . '/app.cookie.txt'); //会话记录文件define('VISITOR_CAPTURE_INTERVAL', 3); //QQ采集间隔define('VISITOR_DATA_UPLOAD_INTERVAL', '');define('THIS_TIME', time()); define(

  • PHP Curl多线程原理实例详解

    给各位介绍一下Curl多线程实例与原理.不对之处请指教相信许多人对php手册中语焉不详的curl_multi一族的函数头疼不已,它们文档少,给的例子 更是简单的让你无从借鉴,我也曾经找了许多网页,都没见一个完整的应用例子.curl_multi_add_handle curl_multi_close curl_multi_exec curl_multi_getcontent curl_multi_info_read curl_multi_init curl_multi_remove_handle

  • php使用curl发送json格式数据实例

    复制代码 代码如下: $urlcon= 'http://localhost/******.php';$data=' {"button":[{ "type":"click","name":"今日歌曲","key":"V1001_TODAY_MUSIC"},{"type":"click","name":"

  • 解析php中curl_multi的应用

    相信许多人对php手册中语焉不详的curl_multi一族的函数头疼不已,它们文档少,给的例子 更是简单的让你无从借鉴,我也曾经找了许多网页,都没见一个完整的应用例子.•curl_multi_add_handle •curl_multi_close •curl_multi_exec •curl_multi_getcontent •curl_multi_info_read •curl_multi_init •curl_multi_remove_handle •curl_multi_select 一

  • php curl基本操作详解

    cURL是与各种的服务器使用各种类型的协议进行连接和通讯的工具.它是一个强大的库支持http.https.ftp.telnet.file等协议,同时也支持HTTPS认证.HTTP POST.HTTP PUT. FTP 上传.HTTP 基于表单的上传.代理.cookies和用户名+密码的认证. 可能大家也用过file_get_contents()函数,但是这种做法如处理coockies.验证.表单提交.文件上传等等就力不从心了. 使用cURL的基本方法如下:首先修改php.ini文件的设置,找到p

  • PHP curl 获取响应的状态码的方法

    PHP curl可以从服务器端模拟一个http请求,例如抓取网页.模拟登陆等.根据选项设置,可以在curl_exec的返回结果中获取到响应头和body,但这没有响应的状态吗.想要获取状态码,需要在执行curl_exec后再通过curl_getinfo来获取.例如: 复制代码 代码如下: $ch = curl_init (); curl_setopt($ch, CURLOPT_URL, 'http://www.google.com.hk'); curl_setopt($ch, CURLOPT_TI

  • PHP CURL CURLOPT参数说明(curl_setopt)

    CURLOPT_RETURNTRANSFER 选项: curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); 如果成功只将结果返回,不自动输出任何内容. 如果失败返回FALSE curl_setopt($ch, CURLOPT_RETURNTRANSFER,0); 或着不使用这个选项: 如果成功只返回TRUE,自动输出返回的内容. 如果失败返回FALSE PHP中CURL方法curl_setopt()函数的一些参数 . bool curl_setopt (int

  • PHP CURL获取cookies模拟登录的方法

    要提取google搜索的部分数据,发现google对于软件抓取它的数据屏蔽的厉害,以前伪造下 USER-AGENT 就可以抓数据,但是现在却不行了.利用抓包数据发现,Google 判断了 cookies,当你没有cookies的时候,直接返回 302 跳转,而且是连续几十个302跳转,根本抓不了数据.因此,在发送搜索命令时,需要先提取 cookies 并保存,然后利用保存下来的这个cookies再次发送搜索命令即可正常抓数据了.这其实和论坛的模拟登录一个道理,先POST登录,获取cookies并

  • php中通过curl检测页面是否被百度收录

    最近要对网站做个整理,需要检测网站内哪些页面没有被百度搜索引擎收录从而进行相关的调整.由于使用site命令一条条的去看实在是看不过来,就想到了使用php程序来批量处理一下,研究了一下,发现其实很简单,下面就将作者使用php实现的检测页面是否被百度收录的功能分享一下. 下面是具体代码: 复制代码 代码如下: <?php/** 检测网页是否被百度收录,返回1则表示收录 返回0表示没有收录* @ param string $url 待检测的网址*/function checkBaiduInclude(

随机推荐