python入门之Scrapy shell的使用
前言:
我们想要在爬虫中使用xpath
、beautifulsoup
、正则表达式,css选择器等来提取想要的数据,但是因为scrapy
是一个比较重的框架,每次运行都要等到一段时间,因此要去验证我们提取规则是否正确,是一个比较麻烦的事情,因此,scrapy
提供了一个shell。用来方便的测试规则,当然也不仅仅局限于这一个功能。
打开Scrapy shell:
进入命令行终端,进入到scrapy
项目所在的目录,然后进入到scrapy框架所在的虚拟环境中,输入命令 scrapy shell [链接]
,就会进入到scrapy的shell环境中。在这个环境中,你可以跟在爬虫的parse
方法中一样使用了。
进入到scrapy项目所在的目录:
cd /Volumes/development/Python_learn/PycharmProjects/scrapy_demo/bmw_img_demo/
进入到scrapy框架所在的虚拟环境中:
source /Volumes/development/Python_learn/PycharmProjects/venv/crawler_evn/bin/activate
输入命令 scrapy shell [链接] :
rapy shell https://car.autohome.com.cn/pic/series/66.html
输入我们需要测试的语句:
srcs = response.xpath('//div[contains(@class,"uibox-con")]/ul/li/a/img/@src').getall()
到此这篇关于python入门之Scrapy shell的使用的文章就介绍到这了,更多相关Scrapy shell的使用内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
相关推荐
-
python中shell执行知识点
os.system system方法会创建子进程运行外部程序,方法只返回外部程序的运行结果.这个方法比较适用于外部程序没有输出结果的情况. import os os.system('ls') commands.getstatusoutput 使用commands模块的getoutput方法,这种方法同popend的区别在于popen返回的是一个文件句柄,而本方法将外部程序的输出结果当作字符串返回,很多情况下用起来要更方便些. 主要方法: commands.getstatusoutput(cmd)
-
python爬虫之scrapy框架详解
1.在pycharm下安装scrapy函数库 2.将安装好scrapy函数库下的路径配置到系统path的环境变量中 3.打开cmd终端输入:scrapy.exe检查是否安装成功 4.创建一个项目:scrapy startproject 项目名字 5.cd进入该目录下,创建一个spider:scrapy genspider 项目名字 网址 6.编辑settings.py文件中的USER_AGENT选项为正常的浏览器头部 7.执行这个spider:scrapy crawl 项目名字 8.如果遇到因p
-
Python的Scrapy框架解析
目录 一.为什么使用Scrapy框架? 二.Scrapy框架每个组件介绍 三.Scrapy框架工作原理 总结 一.为什么使用Scrapy框架? Scrapy是一个快速.高层次的屏幕抓取和web抓取的框架,可用于数据挖掘.监测和自动化检测,任何人都可以根据需要去进行修改. 二.Scrapy框架每个组件介绍 1.Scrapy引擎(Scrapy Engine):负责控制数据流在系统的所以组件中的流动,并在相应动作发生时触发事件. 2.调度器(Scheduler):从引擎接受reques并将其入队,便于
-
python调用bash shell脚本方法
目录 1. os.system() 1.1. demo 2. os.popen() 2.1 demo 3. commands模块 4. subprocess 4.1 demo 1. os.system() help(os.system) 1.1. demo os.system(command):该方法在调用完shell脚本后,返回一个16位的二进制数, 低位为杀死所调用脚本的信号号码,高位为脚本的退出状态码, 即脚本中exit 1的代码执行后,os.system函数返回值的高位数则是1,如果低位
-
python入门之Scrapy shell的使用
前言: 我们想要在爬虫中使用xpath.beautifulsoup.正则表达式,css选择器等来提取想要的数据,但是因为scrapy是一个比较重的框架,每次运行都要等到一段时间,因此要去验证我们提取规则是否正确,是一个比较麻烦的事情,因此,scrapy提供了一个shell.用来方便的测试规则,当然也不仅仅局限于这一个功能. 打开Scrapy shell: 进入命令行终端,进入到scrapy项目所在的目录,然后进入到scrapy框架所在的虚拟环境中,输入命令 scrapy shell [链接] ,
-
python入门之scrapy框架中Request对象和Response对象的介绍
目录 一.Request对象 二.发送POST请求 三.Response对象 一.Request对象 Request对象主要是用来请求数据,爬取一页的数据重新发送一个请求的时候调用,其源码类的位置如 下图所示: 这里给出其的源码,该方法有很多参数: class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None,
-
Python爬虫框架Scrapy基本用法入门教程
本文实例讲述了Python爬虫框架Scrapy基本用法.分享给大家供大家参考,具体如下: Xpath <html> <head> <title>标题</title> </head> <body> <h2>二级标题</h2> <p>爬虫1</p> <p>爬虫2</p> </body> </html> 在上述html代码中,我要获取h2的内容,
-
Python爬虫框架Scrapy常用命令总结
本文实例讲述了Python爬虫框架Scrapy常用命令.分享给大家供大家参考,具体如下: 在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令. 全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行 全局命令 全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不进入Scrapy项目所在目录的情况下,运行scrapy-h,如图所示: 可以看到,此时在可用命令在终端下展示出了常见的全局命令,分别为fetch.runspi
-
Python爬虫框架-scrapy的使用
Scrapy Scrapy是纯python实现的一个为了爬取网站数据.提取结构性数据而编写的应用框架. Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,并且包含了各种中间件接口,可以灵活的完成各种需求 1.安装 sudo pip3 install scrapy 2.认识scrapy框架 2.1 scrapy架构图 Scrapy Engine(引擎): 负责Spider.ItemPipeline.Downloader.Scheduler中间的通讯,信号.数据传递
-
python入门课程第一讲之安装与优缺点介绍
目录 说在前面 何为Python 如何安装Python呢 Max OS下安装Python3 普通的安装方式 通过Homebrew来安装 Python有哪些优缺点呢? 优点 缺点 Python能干什么 总结 这是Pyhon系列文章的第一篇,本文主要介绍Python的基本概念以及如何安装. 干货满满,建议收藏,需要用到时常看看. 小伙伴们如有问题及需要,欢迎踊跃留言哦~ ~ ~. 说在前面 Python语言对各位读者而言一定不会陌生,哪怕没有使用过Python,也一定听说过它.那一句人生苦短,我用P
-
python爬虫框架scrapy实战之爬取京东商城进阶篇
前言 之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧. 代码详解 1.首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回. 代码如下: def start_requests(self): fo
-
Python入门必须知道的11个知识点
Python被誉为全世界高效的编程语言,同时也被称作是"胶水语言",那它为何能如此受欢迎,下面我们就来说说Python入门学习的必备11个知识点,也就是它为何能够如此受欢迎的原因. Python 简介 Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构. Python 是一种解释型语言: 这意味着开发过程中没有了编译这个环节.类似于
-
一份python入门应该看的学习资料
网上学习的时候总会遇到一些好的文章,分享给大家,也谢谢作者的分享. Python 简介 Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构. Python 是一种解释型语言: 这意味着开发过程中没有了编译这个环节.类似于PHP和Perl语言. Python 是交互式语言: 这意味着,您可以在一个Python提示符,直接互动执行写你的程序. P
-
Python爬虫框架scrapy实现的文件下载功能示例
本文实例讲述了Python爬虫框架scrapy实现的文件下载功能.分享给大家供大家参考,具体如下: 我们在写普通脚本的时候,从一个网站拿到一个文件的下载url,然后下载,直接将数据写入文件或者保存下来,但是这个需要我们自己一点一点的写出来,而且反复利用率并不高,为了不重复造轮子,scrapy提供很流畅的下载文件方式,只需要随便写写便可用了. mat.py文件 # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractor impor
随机推荐
- DB2获取当前用户表、字段、索引等详细信息
- 理解Javascript_12_执行模型浅析
- JavaScript时间操作之年月日星期级联操作
- asp.net Accee数据库连接不稳定解决方案
- 详解MySQL误操作后怎样进行数据恢复
- php使用百度ping服务代码实例
- php中处理模拟rewrite 效果
- php中使用preg_match_all匹配文章中的图片
- Jsp自定义标签和方法详解
- c语言中getch,getche,getchar的区别
- Linux VPS/服务器上轻松导入、导出MySQL数据库的几种方法
- JS实现超过长度限制后自动跳转下一款文本框的方法
- 据说是Google首页的网页模块拖动代码
- 微信小程序 向左滑动删除功能的实现
- 收集整理的http/1.1 500 server error错误的解决方法
- Android WebView 缓存详解
- Android实现实时滑动ViewPager的2种方式
- Android图片上传实现预览效果
- vs代码段快捷键设置(图文)
- 网卡地址细解