学习Python爬虫前必掌握知识点
常见的协议
http和https
http协议:
超文本传输协议,是一个发布和接受HTML页面的方法,端口是80
https 协议:http协议的加密版本,在HTTP下加上了ssl层,端口是443
下面访问的是美团的官网:
可以看到端口是443
URL和RUI
常见的请求方式
http协议规定了浏览器与服务器进行数据交互过程中必须要选择一种交互方式
在http协议中定义了8中请求方式,常见的是get和post请求
get请求: 一般只从服务器获取数据下来,并不会对服务器资源产生任何的影响。
请求的时候关注:
url请求方式请求头
post请求: 向服务器发送数据(登陆),上传文件等,会对服务器资源产生影响的时候,会使用post请求。
不过有些网站做了反爬虫机制,你去查看信息,也是使用post请求,所以我们写爬虫的时候,一定要分析网站。
常见的请求头参数:
http协议中,向服务器发送一个请求,数据分为三部分:
- 把数据放在url中
- 数据放在body中,(post请求)
- 数据放在head中
常见的请求头参数:
- user-agent :浏览器名称
- referer: 当前这个请求从哪个url过来的
- cookie:http 协议是无状态的,也就是一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。
常见的相应状态码
- 200 请求正常,服务器正常返回数据
- 301 永久重定向
- 404 请求的url在服务器上找不到
- 418 发送请求遇到服务器端的反爬虫,服务器拒绝相应数据
- 500 服务器内部错误,可能是服务器出现了bug
HTTP的请求相应过程
使用浏览器进行网站分析
我们要分析的网站为: movie.douban.com
- Elements: 用于分析网站的结构
在页面上的呈现的内容,在Elements都会有相应的元素。
- Console: 这里会打印招聘信息,警告等等。
- Sources
- Network : 在显示页面的时候,产生的所有请求
headers 头部信息
session 与cookie
session代表的是服务器和浏览器的一次会话过程
session 是一种服务器端的机制,用来存储特定用户的会话所需要的信息,保存在内存,缓存,或者数据库中。
cookie
cooke是由服务器端生成后发送给客户端,cookie是保存在客户端的
cookie原理:
1) 创建cookie
2) 设置存储cookie
3) 发送cookie
4) 读取cookie
到此这篇关于学习Python爬虫前,需要先掌握哪些知识内容的文章就介绍到这了,更多相关学习Python爬虫掌握知识内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
相关推荐
-
用python爬虫爬取CSDN博主信息
一.项目介绍 爬取网址:CSDN首页的Python.Java.前端.架构以及数据库栏目.简单分析其各自的URL不难发现,都是https://www.csdn.net/nav/+栏目名样式,这样我们就可以爬取不同栏目了. 以Python目录页为例,如下图所示: 爬取内容:每篇文章的博主信息,如博主姓名.码龄.原创数.访问量.粉丝数.获赞数.评论数.收藏数 (考虑到周排名.总排名.积分都是根据上述信息综合得到的,对后续分析没实质性的作用,这里暂不爬取.) 不想看代码的朋友可直接跳到第三部分~ 二.S
-
一文读懂python Scrapy爬虫框架
Scrapy是什么? 先看官网上的说明,http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. S
-
使用Selenium实现微博爬虫(预登录、展开全文、翻页)
前言 在CSDN发的第一篇文章,时隔两年,终于实现了爬微博的自由!本文可以解决微博预登录.识别"展开全文"并爬取完整数据.翻页设置等问题.由于刚接触爬虫,有部分术语可能用的不正确,请大家多指正! 一.区分动态爬虫和静态爬虫 1.静态网页 静态网页是纯粹的HTML,没有后台数据库,不含程序,不可交互,体量较少,加载速度快.静态网页的爬取只需四个步骤:发送请求.获取相应内容.解析内容及保存数据. 2.动态网页 动态网页上的数据会随时间及用户交互发生变化,因此数据不会直接呈现在网页源代码中,
-
Python爬虫分析微博热搜关键词的实现代码
1,使用到的第三方库 requests BeautifulSoup 美味汤 worldcloud 词云 jieba 中文分词 matplotlib 绘图 2,代码实现部分 import requests import wordcloud import jieba from bs4 import BeautifulSoup from matplotlib import pyplot as plt from pylab import mpl #设置字体 mpl.rcParams['font.sans
-
利用Python网络爬虫爬取各大音乐评论的代码
python爬虫--爬取网易云音乐评论 方1:使用selenium模块,简单粗暴.但是虽然方便但是缺点也是很明显,运行慢等等等. 方2:常规思路:直接去请求服务器 1.简易看出评论是动态加载的,一定是ajax方式. 2.通过网络抓包,可以找出评论请求的的URL 得到请求的URL 3.去查看post请求所上传的数据 显然是经过加密的,现在就需要按着网易的思路去解读加密过程,然后进行模拟加密. 4.首先去查看请求是经过那些js到达服务器的 5.设置断点:依次对所发送的内容进行观察,找到评论对应的UR
-
学习Python爬虫前必掌握知识点
常见的协议 http和https http协议: 超文本传输协议,是一个发布和接受HTML页面的方法,端口是80 https 协议:http协议的加密版本,在HTTP下加上了ssl层,端口是443 下面访问的是美团的官网: 可以看到端口是443 URL和RUI 常见的请求方式 http协议规定了浏览器与服务器进行数据交互过程中必须要选择一种交互方式 在http协议中定义了8中请求方式,常见的是get和post请求 get请求: 一般只从服务器获取数据下来,并不会对服务器资源产生任何的影响. 请求
-
学习Python爬虫的几点建议
爬虫是大家公认的入门Python最好方式,没有之一.虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成就感.因此小编整理了新手小白必看的Python爬虫学习路线全面指导,希望可以帮到大家. 1.学习 Python 包并实现基本的爬虫过程 大部分爬虫都是按"发送请求--获得页面--解析页面--抽取并储存内容"这样的流程来进行,这其实也是模拟了我们使用浏览器获取网页信息的过程.Python中
-
零基础学习Python爬虫
目录 爬虫 为什么我们要使用爬虫 爬虫准备工作 爬虫项目讲解 代码分析 1.爬取网页 2.逐一解析数据 3.保存数据 讲解我们的爬虫之前,先概述关于爬虫的简单概念(毕竟是零基础教程) 爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做. 为什么我们要使用爬虫 互联网大数据时代,给予我们的是生活的便利以及海量数据爆炸式的出现在网络中. 过去,我们通过书籍.报
-
python爬虫基础知识点整理
首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy Python爬虫更高级的功能 1.Python基础学习 首先,我们要用Python写爬虫,肯定要了解Python的基础吧,万丈高楼平地起,
-
Python爬虫学习之requests的使用教程
目录 requests库简介 requests库安装 1.pip命令安装 2.下载代码进行安装 requests库的使用 发送请求 get请求 抓取二进制数据 post请求 POST请求的文件上传 利用requests返回响应状态码 requests库简介 requests 库是一个常用的用于 http 请求的模块,它使用 python 语言编写,可以方便的对网页进行爬取,是学习 python 爬虫的较好的http请求模块. 它基于 urllib 库,但比 urllib 方便很多,能完全满足我们
-
10个python爬虫入门实例(小结)
昨天带伙伴萌学习python爬虫,准备了几个简单的入门实例 涉及主要知识点: web是如何交互的 requests库的get.post函数的应用 response对象的相关函数,属性 python文件的打开,保存 代码中给出了注释,并且可以直接运行哦 如何安装requests库(安装好python的朋友可以直接参考,没有的,建议先装一哈python环境) windows用户,Linux用户几乎一样: 打开cmd输入以下命令即可,如果python的环境在C盘的目录,会提示权限不够,只需以管理员方式
-
python爬虫(入门教程、视频教程) 原创
python的版本经过了python2.x和python3.x等版本,无论哪种版本,关于python爬虫相关的知识是融会贯通的,我们关于爬虫这个方便整理过很多有价值的教程,小编通过本文章给大家做一个关于python爬虫相关知识的总结,以下就是全部内容: python爬虫的基础概述 1.什么是爬虫 网络爬虫,即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的.从网站某一个页面(通常是首页)开始,读
-
Python爬虫天气预报实例详解(小白入门)
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬出来. 分析网站 首先来到目标数据的网页 http://www.weather.com.cn/weather40d/101280701.shtml 我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有部分页面刷新了,就是天气数据的那块,而URL没有变化. 这是因为网页前端使用
-
python爬虫爬取某站上海租房图片
对于一个net开发这爬虫真真的以前没有写过.这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup.python 版本:python3.6 ,IDE :pycharm.其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行. 第三方库首先安装 我是用的pycharm所以另为的脚本安装我这就不介绍了. 如上图打开默认设置选择Project Interprecter,双击pip或者点击加
-
Python爬虫爬取美剧网站的实现代码
一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao的我又怎甘心没剧追呢,所以网上随便查了一下就找到一个能用迅雷下载的美剧下载网站[天天美剧],各种资源随便下载,最近迷上的BBC的高清纪录片,大自然美得不要不要的. 虽说找到了资源网站可以下载了,但是每次都要打开浏览器,输入网址,找到该美剧,然后点击链接才能下载.时间长了就觉得过程好繁琐,而且有时候网
随机推荐
- 从面试题学习Javascript 面向对象(创建对象)
- 微信小程序 获取相册照片实例详解
- 浅谈angularJS中的事件
- 简介iOS开发中应用SQLite的模糊查询和常用函数
- 利用JS获取IE客户端IP及MAC的实现好象不可以
- 在WAMP环境下搭建ZendDebugger php调试工具的方法
- php+mysqli实现批量执行插入、更新及删除数据的方法
- Mysql 数据库更新错误的解决方法
- PNG背景在不同浏览器下的应用
- 使用bootstrapValidator插件进行动态添加表单元素并校验
- Node.js开发第三方微信公众平台
- Javaweb开发环境Myeclipse6.5 JDK1.6 Tomcat6.0 SVN1.8配置教程
- java Apache poi 对word doc文件进行读写操作
- PHP使用xpath解析XML的方法详解
- 常用的JQuery函数及功能小结
- 当鼠标移动到图片上时跟随鼠标显示放大的图片效果
- 纯js代码实现未知宽高的元素在指定元素中垂直水平居中显示
- Eclipse中使用ANT
- 不使用qvod播放器获取qvod播放路径的方法
- Docker使用Swarm组建集群的方法