PHP的cURL库功能简介抓取网页、POST数据及其他

2025-02-19 18:29:49

无论是你想从从一个链接上取部分数据，或是取一个XML文件并把其导入数据库，那怕就是简单的获取网页内容，反应釜cURL 是一个功能强大的PHP库。本文主要讲述如果使用这个PHP库。
　　启用 cURL 设置
　　首先，我们得先要确定我们的PHP是否开启了这个库，你可以通过使用php_info()函数来得到这一信息。

代码如下:

<?php
phpinfo();
?>

　　如果你可以在网页上看到下面的输出，那么表示cURL库已被开启。
　　如果你看到的话，那么你需要设置你的PHP并开启这个库。如果你是在Windows平台下，那么非常简单，你需要改一改你的php.ini文件的设置，找到php_curl.dll，并取消前面的分号注释就行了。如下所示：
//取消下在的注释
extension=php_curl.dll

　　如果你是在Linux下面，那么，google排名你需要重新编译你的PHP了，编辑时，你需要打开编译参数——在configure命令上加上“–with-curl” 参数。
　　一个小示例
　　如果一切就绪，下面是一个小例程：

代码如下:

<?php
// 初始化一个 cURL 对象
$curl = curl_init();
// 设置你需要抓取的URL
curl_setopt($curl, CURLOPT_URL, 'http://jb51.net');
// 设置header
curl_setopt($curl, CURLOPT_HEADER, 1);
// 设置cURL 参数，要求结果保存到字符串中还是输出到屏幕上。
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
// 运行cURL，请求网页
$data = curl_exec($curl);
// 关闭URL请求
curl_close($curl);
// 显示获得的数据
var_dump($data);

　　如何POST数据
　　上面是抓取网页的代码，下面则是向某个网页POST数据。假设我们有一个处理表单的网址http://www.example.com/sendSMS.php，其可以接受两个表单域，一个是电话号码，一个是短信内容。

代码如下:

<?php
$phoneNumber　=　'13912345678';
$message　=　'This　message　was　generated　by　curl　and　php';
$curlPost　=　'pNUMBER='　.　urlencode($phoneNumber)　.　'&MESSAGE='　.　urlencode($message)　.　'&SUBMIT=Send';
$ch　=　curl_init();chain link fencing
curl_setopt($ch,　CURLOPT_URL,　'http://www.example.com/sendSMS.php');
curl_setopt($ch,　CURLOPT_HEADER,　1);
curl_setopt($ch,　CURLOPT_RETURNTRANSFER,　1);
curl_setopt($ch,　CURLOPT_POST,　1);
curl_setopt($ch,　CURLOPT_POSTFIELDS,　$curlPost);
$data　=　curl_exec();
curl_close($ch);
?>

　　从上面的程序我们可以看到，使用CURLOPT_POST设置HTTP协议的POST方法，而不是GET方法，然后以CURLOPT_POSTFIELDS设置POST的数据。
　　关于代理服务器
　　下面是一个如何使用代理服务器的示例。请注意其中高亮的代码，代码很简单，我就不用多说了。

代码如下:

<?php
$ch　=　curl_init();
curl_setopt($ch,　CURLOPT_URL,　'http://www.example.com');
curl_setopt($ch,　CURLOPT_HEADER,　1);
curl_setopt($ch,　CURLOPT_RETURNTRANSFER,　1);
curl_setopt($ch,　CURLOPT_HTTPPROXYTUNNEL,　1);
curl_setopt($ch,　CURLOPT_PROXY,　'fakeproxy.com:1080');
curl_setopt($ch,　CURLOPT_PROXYUSERPWD,　'user:password');
$data　=　curl_exec();
curl_close($ch);
?>

　　
　　关于SSL和Cookie
　　关于SSL也就是HTTPS协议，煤气发生炉你只需要把CURLOPT_URL连接中的http://变成https://就可以了。当然，还有一个参数叫CURLOPT_SSL_VERIFYHOST可以设置为验证站点。
　　关于Cookie，你需要了解下面三个参数：
　　CURLOPT_COOKIE，在当面的会话中设置一个cookie
　　CURLOPT_COOKIEJAR，当会话结束的时候保存一个Cookie
　　CURLOPT_COOKIEFILE，Cookie的文件。
　　HTTP服务器认证
　　最后，我们来看一看HTTP服务器认证的情况。

代码如下:

<?php
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.example.com');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_BASIC);
curl_setopt(CURLOPT_USERPWD, '[username]:[password]')
$data = curl_exec();
curl_close($ch);
?>

关于其它更多的内容，请参看相关的cURL手册。

PHP 抓取网页图片并且另存为的实现代码

下面是源代码,及其相关解释复制代码代码如下: <?php //URL是远程的完整图片地址,不能为空, $filename 是另存为的图片名字 //默认把图片放在以此脚本相同的目录里 function GrabImage($url, $filename=""){ //$url 为空则返回 false; if($url == ""){return false;} $ext = strrchr($url, ".");//得到图片的扩展名 if
PHP中使用file_get_contents抓取网页中文乱码问题解决方法

本文实例讲述了PHP中使用file_get_contents抓取网页中文乱码问题解决方法.分享给大家供大家参考.具体方法如下: file_get_contents函数本来就是一个非常优秀的php自带本地与远程文件操作函数,它可以让我们不花吹挥之力把远程数据直接下载,但我在使用它读取网页时会碰到有些页面是乱码了,这里就来给各位总结具体的解决办法. 根据网上有朋友介绍说原因可能是服务器开了GZIP压缩,下面是用firebug查看我的网站的头信息,Gzip是开了的,请求头信息原始头信息,代码如下: 复
PHP抓取网页、解析HTML常用的方法总结

概述爬虫是我们在做程序时经常会遇到的一种功能.PHP有许多开源的爬虫工具,如snoopy,这些开源的爬虫工具,通常能帮我们完成大部分功能,但是在某种情况下,我们需要自己实现一个爬虫,本篇文章对PHP实现爬虫的方式做个总结. PHP实现爬虫主要方法 1.file()函数 2.file_get_contents()函数 3.fopen()->fread()->fclose()方式 4.curl方式 5.fsockopen()函数,socket方式 6.使用开源工具,如:snoopy PHP解析X
php中抓取网页内容的实例详解

php中抓取网页内容的实例详解方法一: 使用file_get_contents方法实现 $url = "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml"; $html = file_get_contents($url); //如果出现中文乱码使用下面代码 //$getcontent = iconv("gb2312", "utf-8",$html); echo &
PHP多线程抓取网页实现代码

受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址.既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码: 代码1:将获得的代码直接写入某个文件复制代码代码如下: <?php $urls = array( 'http://www.sina.com.cn/', 'http://w
php使用curl和正则表达式抓取网页数据示例

利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说. 依赖项:curl 可以简单的看下,里面用到了curl ,正则表达式,ajax等技术,适合新手看看.在本地测试,必须保证联网并且确保php开启curl的mode SpiderTools.class.php 复制代码代码如下: <?php session_start(); //封装成类开启这些自动抓取文章 #header("Refresh:30;http://www.test.co
PHP的cURL库功能简介抓取网页、POST数据及其他

无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,反应釜cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息. 复制代码代码如下: <?php phpinfo(); ?> 如果你可以在网页上看到下面的输出,那么表示cURL库已被开启. 如果你看到的话,那么你需要设置你的PHP并开启这个库.如果你是在
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)

通过curl_setopt()函数可以方便快捷的抓取网页(采集很方便大笑),curl_setopt 是PHP的一个扩展库使用条件:需要在php.ini 中配置开启.(PHP 4 >= 4.0.2) //取消下面的注释 extension=php_curl.dll 在Linux下面,需要重新编译PHP了,编译时,你需要打开编译参数--在configure命令上加上"–with-curl" 参数. 1. 一个抓取网页的简单案例: [php] view pla
浅谈如何使用python抓取网页中的动态数据实现

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的. 在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据. 今天,我们就在这里简单聊一聊如何用python来抓取页面中的JS动态加载的数据. 给出一个网页:豆瓣电影排行榜,其中的所有电影信息都是
php curl抓取网页的介绍和推广及使用CURL抓取淘宝页面集成方法

php的curl可以用来实现抓取网页,分析网页数据用, 简洁易用, 这里介绍其函数等就不详细描述, 放上代码看看: 只保留了其中几个主要的函数. 实现模拟登陆, 其中可能涉及到session捕获, 然后前后页面涉及参数提供形式. libcurl主要功能就是用不同的协议连接和沟通不同的服务器~也就是相当封装了的sock PHP 支持libcurl(允许你用不同的协议连接和沟通不同的服务器)., libcurl当前支持http, https, ftp, gopher, telnet, dict, f
Python实现多线程抓取网页功能实例详解

本文实例讲述了Python实现多线程抓取网页功能.分享给大家供大家参考,具体如下: 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术的实现. 1.larbin的URL去重用的很高效的bloom filter算法: 2.DNS处理,使用的adns异步的开源组件: 3.对于url队列的处理,则是用部分缓存到内存,部分写入文件的策略. 4.larbin对文件的相关操作做了很多工作 5.在larbin里有连接池,通过创建套接字,向目标站点
python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例

使用Python爬虫库requests多线程抓取猫眼电影TOP100思路: 查看网页源代码抓取单页内容正则表达式提取信息猫眼TOP100所有信息写入文件多线程抓取运行平台:windows Python版本:Python 3.7. IDE:Sublime Text 浏览器:Chrome浏览器 1.查看猫眼电影TOP100网页原代码按F12查看网页源代码发现每一个电影的信息都在"<dd></dd>"标签之中. 点开之后,信息如下: 2.抓取单页内容在浏
用Python程序抓取网页的HTML信息的一个小实例

抓取网页数据的思路有好多种,一般有:直接代码请求http.模拟浏览器请求数据(通常需要登录验证).控制浏览器实现数据抓取等.这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据将ittf网站上这个页面上所有这些选手的超链接保存下来. 数据请求真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定: doc = requests.get(url).text 解析html获得数据以beautifulsoup为例,包含获取标签.链接,以及根据html层次结
Python实现抓取网页并且解析的实例

本文以实例形式讲述了Python实现抓取网页并解析的功能.主要解析问答与百度的首页.分享给大家供大家参考之用. 主要功能代码如下: #!/usr/bin/python #coding=utf-8 import sys import re import urllib2 from urllib import urlencode from urllib import quote import time maxline = 2000 wenda = re.compile("href=\"htt
Python requests模块基础使用方法实例及高级应用(自动登陆,抓取网页源码)实例详解

1.Python requests模块说明 requests是使用Apache2 licensed 许可证的HTTP库. 用python编写. 比urllib2模块更简洁. Request支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码. 在python内置模块的基础上进行了高度的封装,从而使得python进行网络请求时,变得人性化,使用Requests可以轻而易举的完成浏览器可有的任何操作. 现代,国际化

PHP的cURL库功能简介 抓取网页、POST数据及其他

相关推荐

随机推荐

PHP的cURL库功能简介抓取网页、POST数据及其他