使用requests库制作Python爬虫
使用python爬虫其实就是方便,它会有各种工具类供你来使用,很方便。Java不可以吗?也可以,使用httpclient工具、还有一个大神写的webmagic框架,这些都可以实现爬虫,只不过python集成工具库,使用几行爬取,而Java需要写更多的行来实现,但目的都是一样。
下面介绍requests库简单使用:
#!/usr/local/env python # coding:utf-8 import requests #下面开始介绍requests的使用,环境语言是python3,使用下面的网址作为参考 #http://www.sse.com.cn/market/bonddata/data/tb/ request_param = {'jsonCallBack': 'jsonpCallback6588', 'isPagination': 'true', 'sqlId': 'COMMON_BOND_XXPL_ZQXX_L', 'BONDTYPE': '地×××府债券', 'pageHelp.pageSize': '25', 'pageHelp.pageNo': '2', 'pageHelp.beginPage': '2', 'pageHelp.cacheSize': '1', 'pageHelp.endPage': '21'} user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36' referer = 'http://www.sse.com.cn/market/bonddata/data/ltb/' #设置headers headers = {'User-Agent': user_agent, 'Referer': referer} #设置代理 proxy = { "http":"http://113.214.13.1:8000" } # 需要请求的URL地址 request_url = 'http://query.sse.com.cn/commonQuery.do?' #设置请求地址 response = requests.get(request_url, headers=headers, proxies=proxy, params=request_param); print(response.status_code) #文本响应内容 print(response.text) #json格式响应内容 print(response.json()) #二进制响应内容 print(response.content) #原始格式 print(response.raw)
相关推荐
-
python爬虫实例详解
本篇博文主要讲解Python爬虫实例,重点包括爬虫技术架构,组成爬虫的关键模块:URL管理器.HTML下载器和HTML解析器. 爬虫简单架构 程序入口函数(爬虫调度段) #coding:utf8 import time, datetime from maya_Spider import url_manager, html_downloader, html_parser, html_outputer class Spider_Main(object): #初始化操作 def __init__(se
-
python中数据爬虫requests库使用方法详解
一.什么是Requests Requests 是Python语编写,基于urllib,采Apache2 Licensed开源协议的 HTTP 库.它urllib 更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 一句话--requests是python实现的简单易用的HTTP库 二.安装Requests库 进入命令行win+R执行 命令:pip install requests 项目导入:import requests 三.各种请求方式 直接上代码,不明白可以查看我的urllib的基
-
python爬虫入门教程--优雅的HTTP库requests(二)
前言 urllib.urllib2.urllib3.httplib.httplib2 都是和 HTTP 相关的 Python 模块,看名字就觉得很反人类,更糟糕的是这些模块在 Python2 与 Python3 中有很大的差异,如果业务代码要同时兼容 2 和 3,写起来会让人崩溃. 好在,还有一个非常惊艳的 HTTP 库叫 requests,它是 GitHUb 关注数最多的 Python 项目之一,requests 的作者是 Kenneth Reitz 大神. requests 实现了 HTTP
-
python爬虫基础教程:requests库(二)代码实例
get请求 简单使用 import requests ''' 想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载! ''' response = requests.get("https://www.baidu.com/") #text返回的是unicode的字符串,可能会出现乱码情况 # print(response.text) #content返回的是字节,需要解码 print(response.content.decod
-
Python 通过requests实现腾讯新闻抓取爬虫的方法
最近也是学习了一些爬虫方面的知识.以我自己的理解,通常我们用浏览器查看网页时,是通过浏览器向服务器发送请求,然后服务器响应以后返回一些代码数据,再经过浏览器解析后呈现出来.而爬虫则是通过程序向服务器发送请求,并且将服务器返回的信息,通过一些处理后,就能得到我们想要的数据了. 以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫: 首先需要用到python中requests(方便全面的http请求库)和 BeautifulSoup(html解析库). 通过pip来安装这两个
-
Python3多线程爬虫实例讲解代码
多线程概述 多线程使得程序内部可以分出多个线程来做多件事情,充分利用CPU空闲时间,提升处理效率.python提供了两个模块来实现多线程thread 和threading ,thread 有一些缺点,在threading 得到了弥补.并且在Python3中废弃了thread模块,保留了更强大的threading模块. 使用场景 在python的原始解释器CPython中存在着GIL(Global Interpreter Lock,全局解释器锁),因此在解释执行python代码时,会产生互斥锁来限
-
Python使用requests及BeautifulSoup构建爬虫实例代码
本文研究的主要是Python使用requests及BeautifulSoup构建一个网络爬虫,具体步骤如下. 功能说明 在Python下面可使用requests模块请求某个url获取响应的html文件,接着使用BeautifulSoup解析某个html. 案例 假设我要http://maoyan.com/board/4猫眼电影的top100电影的相关信息,如下截图: 获取电影的标题及url. 安装requests和BeautifulSoup 使用pip工具安装这两个工具. pip install
-
python爬虫入门教程--利用requests构建知乎API(三)
前言 在爬虫系列文章 优雅的HTTP库requests中介绍了 requests 的使用方式,这一次我们用 requests 构建一个知乎 API,功能包括:私信发送.文章点赞.用户关注等,因为任何涉及用户操作的功能都需要登录后才操作,所以在阅读这篇文章前建议先了解Python模拟知乎登录 .现在假设你已经知道如何用 requests 模拟知乎登录了. 思路分析 发送私信的过程就是浏览器向服务器发送一个 HTTP 请求,请求报文包括请求 URL.请求头 Header.还有请求体 Body,只要把
-
使用requests库制作Python爬虫
使用python爬虫其实就是方便,它会有各种工具类供你来使用,很方便.Java不可以吗?也可以,使用httpclient工具.还有一个大神写的webmagic框架,这些都可以实现爬虫,只不过python集成工具库,使用几行爬取,而Java需要写更多的行来实现,但目的都是一样. 下面介绍requests库简单使用: #!/usr/local/env python # coding:utf-8 import requests #下面开始介绍requests的使用,环境语言是python3,使用下面的
-
使用Requests库来进行爬虫的方式
目录 使用 各种请求方式 基本get请求 基本写法 带参数get 解析json 获取二进制数据 添加headers 基本POST请求 响应 response属性 状态码判断 高级操作 文件上传 获取cookie 会话维持 证书验证 代理设置 超时设置 认证设置 异常处理 Requests是用Python编写,基于urllib,采用Apache2 Licensed开源协议的HTTP库. 它比urllib更方便,可以节约我们大量的工作,完全满足HTTP测试需求. 安装: pip3 install r
-
videocapture库制作python视频高速传输程序
1,首先是视频数据[摄像头图像]的采集,通常可以使用vfw在vc或者vb下实现,这个库我用的不好,所以一直不怎么会用.现在我们用到的是python的videocapture库,这个库用起来很简单,如下: 复制代码 代码如下: from VideoCapture import Devicecam = Device()cam.setResolution(320,240) #设置显示分辨率cam.saveSnapshot('demo.jpg') #抓取并保存图片 这样,你就得到了一张图片.当然,要
-
Python 爬虫学习笔记之单线程爬虫
介绍 本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图 怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样 这个时候进行翻页,观看网址的变化,首先,第一页的网址是 http://www.maiziedu.com/course/list/, 第二页变成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三页变成了 http://www.ma
-
python利用requests库进行接口测试的方法详解
前言 之前介绍了接口测试中需要关注得测试点,现在我们来看看如何进行接口测试,现在接口测试工具有很多种,例如:postman,soapui,jemter等等,对于简单接口而言,或者我们只想调试一下,使用工具是非常便捷而且快速得,但是对于更复杂得场景,这些工具虽然也能实现,但是难度要比写代码更大,而且定制化受到工具得功能影响,会 遇到一些障碍,当然我们还要实现自动化等等,鉴于以上因素,我们还是要学会使用代码进行接口测试,便于维护与扩展,或者算是我们知识得补充把~ requests库是python用来
-
使用Python爬虫库requests发送表单数据和JSON数据
导入Python爬虫库Requests import requests 一.发送表单数据 要发送表单数据,只需要将一个字典传递给参数data payload = {'key1': 'value1', 'key2': 'value2'} r = requests.post("http://httpbin.org/post", data=payload) print(r.text) {"args":{},"data":"",&qu
-
Python爬虫库requests获取响应内容、响应状态码、响应头
首先在程序中引入Requests模块 import requests 一.获取不同类型的响应内容 在发送请求后,服务器会返回一个响应内容,而且requests通常会自动解码响应内容 1.文本响应内容 获取文本类型的响应内容 r = requests.get('https://www.baidu.com') r.text # 通过文本的形式获取响应内容 '<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><m
随机推荐
- JSON 必知必会 观后记
- 手把手教你使用flex eclipse整合spring
- 使用Eclipse开发工具如何解决Java Compiler中Annotation Processin不出现的问题
- Python的加密模块md5、sha、crypt使用实例
- javascript 表单验证常见正则
- PPK 谈 JavaScript 的 this 关键字 [翻译]
- ASP.NET MVC4 Razor模板简易分页效果
- PHP加密解密字符串汇总
- php利用header函数实现文件下载时直接提示保存
- Android StickyListHeaders实现电话本列表效果
- mysql清除log-bin日志的方法
- 利用transition实现文字上下抖动的效果
- 闲话技术人员之苦中作乐
- python if not in 多条件判断代码
- C# 文字代码页 文字编码的代码页名称速查表
- 使用python爬虫实现网络股票信息爬取的demo
- JS中移除非数字最多保留一位小数
- IntelliJ IDEA本地代码提交到github网站不显示与本地不同步问题的解决办法
- Thread线程的基础知识及常见疑惑点总结
- 网易2016研发工程师编程题 奖学金(python)