如何跨站抓取别的站点的页面的补充

2025-01-31 15:37:36

在实际的应用中，经常会遇到一些特殊的情况，比如需要新闻，天气预报，等等，但是作为个人站点或者实力小的站点我们不可能有那么多的人力物力财力去做这些事情，怎么办呢？
好在互联网是资源共享的，我们可以利用程序自动的把别的站点的页面抓取回来经过处理后被我们所利用。
用什么呢，那个战友给的是不行的，其实在Php有这个功能，那就是用curl库。请看下面的代码!
<?php

$ch = curl_init ("http://dailynews.sina.com.cn");
$fp = fopen ("php_homepage.txt", "w");

curl_setopt ($ch, CURLOPT_FILE, $fp);
curl_setopt ($ch, CURLOPT_HEADER, 0);

curl_exec ($ch);
curl_close ($ch);
fclose ($fp);
?>

但有时会出现一些错误，但实际上已经下载完了！我问了老外，他们没有给我一个答复，我想实在不行，就在函数前面加个◎;这样我们只要对$txt进行适当的分析后，我们就可以偷偷的抓取sina的新闻！不过，还是不用的为好！以免发生法律纠纷，这里只是想告诉你Php的功能非常的强大！你可以做许多事情！

【本文版权归作者与奥索网共同拥有，如需转载，请注明作者及出处】

如何跨站抓取别的站点的页面的补充

在实际的应用中,经常会遇到一些特殊的情况,比如需要新闻,天气预报,等等,但是作为个人站点或者实力小的站点我们不可能有那么多的人力物力财力去做这些事情,怎么办呢? 好在互联网是资源共享的,我们可以利用程序自动的把别的站点的页面抓取回来经过处理后被我们所利用. 用什么呢,那个战友给的是不行的,其实在Php有这个功能,那就是用curl库.请看下面的代码! <?php $ch = curl_init ("http://dailynews.sina.com.cn"); $
jquery+thinkphp实现跨域抓取数据的方法

本文实例讲述了jquery+thinkphp实现跨域抓取数据的方法.分享给大家供大家参考,具体如下: 今天做一个远程抓取数据的功能,记得jquery可以用Ajax远程抓取,但不能跨域.再网上找了很多.但我觉得还是来个综合的,所以我现在觉得有点把简单问题复杂化了,但至少目前解决了: 跨域抓取数据到本地数据库再异步更新的效果我实现的方式:jquery的$.post发送数据到服务器后台,在由后台的PHP代码执行远程抓取,存到数据库ajax返回数据到前台,前台用JS接受数据并显示. //远程抓取获取数
python抓取并保存html页面时乱码问题的解决方法

本文实例讲述了python抓取并保存html页面时乱码问题的解决方法.分享给大家供大家参考,具体如下: 在用Python抓取html页面并保存的时候,经常出现抓取下来的网页内容是乱码的问题.出现该问题的原因一方面是自己的代码中编码设置有问题,另一方面是在编码设置正确的情况下,网页的实际编码和标示的编码不符合造成的.html页面标示的编码在这里: 复制代码代码如下: <meta http-equiv="Content-Type" content="text/html;
golang抓取网页并分析页面包含的链接方法

1. 下载非标准的包,"golang.org/x/net/html" 2. 先安装git,使用git命令下载 git clone https://github.com/golang/net 3. 将net包,放到GOROOT路径下比如: 我的是:GOROOT = E:\go\ 所以最终目录是:E:\go\src\golang.org\x\net 注意:如果没有golang.org和x文件夹,就创建 4. 创建fetch目录,在其下创建main.go文件,main.go文件代码内容如下
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地

本文实例为大家分享了Android九宫格图片展示的具体代码,供大家参考,具体内容如下 #!/user/bin/python # -*- coding: gbk -*- #Spider.py import urllib2 import httplib import StringIO import gzip import re import chardet import sys import os import datetime from xml.dom.minidom import Documen
python抓取多种类型的页面方法实例

与抓取预定义好的页面集合不同,抓取一个网站的所有内链会带来一个挑战,即你不知道会获得什么.好在有几种基本的方法可以识别页面类型. 通过URL 一个网站中所有的博客文章可能都会包含一个 URL(例如 http://example.com/blog/title-of-post). 通过网站中存在或者缺失的特定字段如果一个页面包含日期,但是不包含作者名字,那你可以将其归类为新闻稿.如果它有标题.主图片.价格,但是没有主要内容,那么它可能是一个产品页面. 通过页面中出现的特定标签识别页面即使不
使用Ruby程序实现web信息抓取的教程

网站不再单单迎合人类读者.许多站点现在支持一些 API,这些 API 使计算机程序能够获取信息.屏幕抓取 -- 将 HTML 页面解析为更容易理解的表单的省时技术 - 仍然很方便.但使用 API 简化 Web 数据提取的机会在快速增多.根据 ProgrammableWeb 的信息,在本文发表时,已存在 10,000 多个网站 API - 在过去的 15 个月中增加了 3,000 个.(ProgrammableWeb 本身提供了一个 API,可从其目录中搜索和检索 API.mashup.成员概要文
Python使用lxml模块和Requests模块抓取HTML页面的教程

Web抓取 Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档.有时从中获取数据同时保持它的结构是有用的.web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据. 这正是web抓取出场的时机.Web抓取是使用计算机程序将web页面数据进行收集并整理成所需格式,同时保存其结构的实践. lxml和Requests lxml(http://lxml.de/)是一个优美的扩展库,用来快速解析XML以及HTML文档即使所处理的标签非常混乱.我们也将使用 Re
在Python中使用cookielib和urllib2配合PyQuery抓取网页信息

刚才好无聊,突然想起来之前做一个课表的点子,于是百度了起来. 刚开始,我是这样想的:在写微信墙的时候,用到了urllib2[两行代码抓网页],那么就只剩下解析html了.于是百度:python解析html.发现一篇好文章,其中介绍到了pyQuery. pyQuery 是 jQuery 在 Python 中的实现,能够以 jQuery 的语法來操作解析 HTML 文档.使用前需要安装,Mac安装方法如下: sudo easy_install pyquery OK!安装好了! 我们来试一试吧: fr
Python抓取框架Scrapy爬虫入门：页面提取

前言 Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义.本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享出来供大家参考学习,下面随着小编来一起学习学习吧. 在开始之前,关于scrapy框架的入门大家可以参考这篇文章:http://www.jb51.net/article/87820.htm 下面创建一个爬虫项目,以图虫网为例抓取图片. 一.内容分析打开图虫网,顶部菜单"发现" "

如何跨站抓取别的站点的页面的补充

相关推荐

随机推荐