解析file_get_contents模仿浏览器头(user_agent)获取数据
什么是user agent
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
网站可以通过判断不同UA来呈现不同的网站,例如手机访问和PC访问显示不同的页面。
PHP在用file_get_contents函数采集网站时,有时会明明用浏览器可以看,但就是采不到任何内容。
这很有可能是服务器上做了设置,根据 User_agent判断是否为正常的浏览器请求,因为默认PHP的file_get_contents函数是不发送ua的。
如果要采集这样的网站,我们就必须要让PHP模拟浏览器发送UA,欺骗网站返回正常内容。
实现如下:
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)');
这是模拟IE8环境下的UA,当然你也可以换成其他的。比如中火狐
也可以这样读取:
代码如下:
$opts = array(
'http'=>array(
'method'=>"GET",
'header'=>"Host: zh.wikipedia.org\r\n" .
"Accept-language: zh-cn\r\n" .
"User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)" .
"Accept: *//*"
)
);
相关推荐
-
php file_get_contents抓取Gzip网页乱码的三种解决方法
把抓取到的内容转下编码即可($content=iconv("GBK", "UTF-8//IGNORE", $content);),我们这里讨论的是如何抓取开了Gzip的页面.怎么判断呢?获取的头部当中有Content-Encoding: gzip说明内容是GZIP压缩的.用FireBug看一下就知道页面开了gzip没有.下面是用firebug查看我的博客的头信息,Gzip是开了的. 复制代码 代码如下: 请求头信息原始头信息Accept text/html,appl
-
解析PHP中的file_get_contents获取远程页面乱码的问题
PHP的file_get_contents获取远程页面内容,如果是gzip编码过的,返回的字符串就是编码后的乱码1.解决方法,找个ungzip的函数来转换下2.给你的url加个前缀,这样调用$content = file_get_contents("compress.zlib://".$url);无论页面是否经过gzip压缩,上述代码都可以正常工作!使用curl模块同样可解决问题 复制代码 代码如下: function curl_get($url, $gzip=false){
-
file_get_contents("php://input", "r")实例介绍
解释不清,直接上例子index.html 复制代码 代码如下: <form action="action.php" method="post" > <input type="text" name="userName" id="userName" /><br/> <input type="text" name="userPass&q
-
php中file_get_contents与curl性能比较分析
本文实例讲述了php中file_get_contents与curl性能比较分析.分享给大家供大家参考.具体如下: 在php中如果不仔细的去分析性能会发现file_get_contents与curl两个同很多共同点的,他们都可以采集文件打开文件,但是如果仔细一对比会发现很多不同点,下面我们一起来看看file_get_contents与curl区别. PHP中fopen,file_get_contents,curl函数的区别: 1.fopen /file_get_contents 每次请求都会重新做
-
PHP中file_get_contents高級用法实例
本文实例讲述了PHP中file_get_contents高级用法,分享给大家供大家参考.具体分析如下: 首先解决file_get_contents的超时问题,在超时返回错误后就象js中的settimeout那样进行一次尝试,错误超过3次或者5次后就确认为无法连线伺服器而彻底放弃. 这裡就简单介绍两种解决方法: 一.增加超时的时间限制 注意:set_time_limit只是设定你的PHP程式的超时时间,而不是file_get_contents函数读取URL的超时时间. 我一开始以为set_time
-
php读取本地文件常用函数(fopen与file_get_contents)
下面我们以.txt文件为实例来介绍php读取本地文件的函数,读取文件我们可以利用fopen或file_get_contents来读取,file_get_contents更简单而fopen需要fread配合才可以显示读出的内容. 1.首先来介绍一下fopen()函数 下面我们给出了一个直接打开本地文件的代码demo,必要的地方我们都已经加上了注释: 复制代码 代码如下: //直接打开一个本地文件的实例代码 <?php //假若我们本地的文件是一个名为xmlas.txt的文本
-
PHP file_get_contents设置超时处理方法
file_get_contents的超时处理 话说,从PHP5开始,file_get_content已经支持context了(手册上写着:5.0.0 Added the context support. ),也就是说,从5.0开始,file_get_contents其实也可以POST数据. 今天说的这篇是讲超时的,确实在跨服务器提交的时候,不可避免的会遇到超时的情况,这个时候怎么办?set_time_limit是没有用的,只有用context中的timeout时间来控制.相反,我们不是要抑止,而
-
解决file_get_contents无法请求https连接的方法
错误: Warning: fopen() [function.fopen]: Unable to find the wrapper "https" - did you forget to enable it when you configured PHP? 解决方案有3: 1.windows下的PHP,只需要到php.ini中把extension=php_openssl.dll前面的;删掉,重启服务就可以了. 2.linux下的PHP,就必须安装openssl模块,安装好了以后就可以访
-
深入file_get_contents函数抓取内容失败的原因分析
用file_get_contents来抓取页面内容不成功,可能是因为有些主机服务商把php的allow_url_fopen选项是关闭了,就是没法直接使用file_get_contents来获取远程web页面的内容.那就是可以使用另外一个函数curl.下面是file_get_contents和curl两个函数同样功能的不同写法file_get_contents函数的使用示例: 复制代码 代码如下: < ?php$file_contents = file_get_contents('http://w
-
php 使用file_get_contents读取大文件的方法
当我们遇到文本文件体积很大时,比如超过几十M甚至几百M几G的大文件,用记事本或者其它编辑器打开往往不能成功,因为他们都需要把文件内容全部放到内存里面,这时就会发生内存溢出而打开错误,遇到这种情况我们可以使用PHP的文件读取函数file_get_contents()进行分段读取. 函数说明 string file_get_contents ( string $filename [, bool $use_include_path [, resource $context [, int $offset
-
PHP中file_get_contents函数抓取https地址出错的解决方法(两种方法)
方法一: 在php中,抓取https的网站,提示如下的错误内容: Warning: file_get_contents() [function.file-get-contents]: failed to open stream: Invalid argument in I:Webmyphpa.php on line 16 打开php.ini文件找到 ;extension=php_openssl.dll ,去掉双引号";" ,重启web服务器即可. apache服务器的话,可以同时启用m
随机推荐
- JavaScript正则方法replace实现搜索关键字高亮显示
- 浅谈在vue项目中如何定义全局变量和全局函数
- c#中list.FindAll与for循环的性能对比总结
- js退出弹窗代码集合
- JavaScript正则表达式校验非零的正整数实例
- 老生常谈Java异常处理和设计(推荐)
- Java实现监控多个线程状态的简单实例
- python算法学习之桶排序算法实例(分块排序)
- javascript判断firebug是否开启的方法
- 解析javascript图片懒加载与预加载的分析总结
- js获取url中"?"后面的字串方法
- 如此高效通用的分页存储过程是带有sql注入漏洞的zt
- php基础学习之变量的使用
- JS实现控制图片显示大小的方法【图片等比例缩放功能】
- MySQL中二进制与重做日志文件的基本概念学习教程
- JDK的Parser来解析Java源代码详解
- 分享自己用JS做的扫雷小游戏
- C#实现的简单验证码识别实例
- nunit使用指南之—NUnit Quick Start
- 深入了解C++中map用法