使用python无账号无限制获取企查查信息的实例代码
前言
文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
通过网上爬虫获取了全国所有企业,然后就需要补充企业信息,首先想到的就是企查查,启信宝等专业网站,最终选择了企查查,尝试了多种方法:
1、selenium爬虫,绕过企查查的登录验证,但账号和IP限制太大,最终放弃
2、通过requests直接请求+cookies,遇到了cookie有效期和限制问题
不断的尝试和修改参数,最终发现一种有效方式selenium + wep
只需要IP代理,不需要账号,没有限制,因为是没有登录,拿到的信息有限,能展示的都能获取。
一、初始化selenium
Python数据分析实战
二、判断公司存在
Python数据分析实战
三、获取公司信息
Python数据分析实战
总结
到此这篇关于使用python无账号无限制获取企查查信息的方法的文章就介绍到这了,更多相关python 企查查信息内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
相关推荐
-
使用python无账号无限制获取企查查信息的实例代码
前言 文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 通过网上爬虫获取了全国所有企业,然后就需要补充企业信息,首先想到的就是企查查,启信宝等专业网站,最终选择了企查查,尝试了多种方法: 1.selenium爬虫,绕过企查查的登录验证,但账号和IP限制太大,最终放弃 2.通过requests直接请求+cookies,遇到了cookie有效期和限制问题 不断的尝试和修改参数,最终发现一种有效方式selenium + wep 只需要IP
-
python扫描proxy并获取可用代理ip的实例
今天咱写一个挺实用的工具,就是扫描并获取可用的proxy 首先呢,我先百度找了一个网站:http://www.xicidaili.com 作为例子 这个网站里公布了许多的国内外可用的代理的ip和端口 我们还是按照老样子进行分析,就先把所有国内的proxy扫一遍吧 点开国内部分进行审查发现,国内proxy和目录为以下url: http://www.xicidaili.com/nn/x 这个x差不多两千多页,那么看来又要线程处理了... 老样子,我们尝试是否能直接以最简单的requests.get(
-
Python运维之获取系统CPU信息的实现方法
使用Python进行运维工作的时候有时候需要获取CPU的信息,这在psutil模块库的帮助下非常容易实现. 常见的CPU信息有以下几种: 1,用户时间以及百分比: 2,系统时间以及百分比: 3,空闲时间以及百分比: 4,CPU的硬件信息: 前3个中的时间可以采用cpu_times方法获取,百分比可以使用cpu_times_pcercent获得. 简单的示范如下: In [9]: importpsutil In [10]:psutil.cpu_times() Out[10]: scputimes(
-
Python利用PyPDF2库获取PDF文件总页码实例
Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着,就是直接编写代码了,其中我新建了一个py文件,名为file_utils.py,代码如下: from PyPDF2 import PdfFileReader def get_num_pages(file_path): """ 获取文件总页码 :param file_path: 文件
-
Python实战之异步获取中国天气信息
目录 前言 目标 请求格式 请求限制 requests非异步获取 异步获取 系统上限 编码 前言 本来是想要更新scrapy的,但是怎么说呢,这玩意不难,看着官方文档,基本上就能做,主要是前面的如果你的爬虫基础不好的话,这个scrapy你也玩不好,而且对于大部分的人来说安装scrapy可能都是个问题,因为有一些历史遗留的问题,毕竟是从python2过来的老框架.当然还有个原因,我要做的东西,用不上scrapy,能够用上scrapy如果只是做爬虫,那必然是分布式爬虫,但是我这里要做的可能只是一个客
-
python3通过selenium爬虫获取到dj商品的实例代码
先给大家介绍下python3 selenium使用 其实这个就相当于模拟人的点击事件来连续的访问浏览器.如果你玩过王者荣耀的话在2016年一月份的版本里面就有一个bug. 安卓手机下载一个按键精灵就可以在冒险模式里面设置按键,让手机自动玩闯关,一局19个金币,一晚上就一个英雄了.不过 程序员也不是吃素的.给一个星期设置了大概4000金币上限.有兴趣的可以去试试.(注:手机需要root) 进入正题: from selenium import webdriver from selenium.webd
-
PHP无限循环获取MySQL中的数据实例代码
最近公司有个需求需要从MySQL获取数据,然后在页面上无线循环的翻页展示.主要就是一直点击一个按钮,然后数据从最开始循环到末尾,如果末尾的数据不够了,那么从数据的最开始取几条补充上来. 其实,这个功能可以通过JQ实现,也可以通过PHP + MYSQL实现,只不过JQ比较方便而且效率更高罢了. 每次显示10条数据. public function get_data($limit){ $sql="select * from ((select id,name from `mytable` limit
-
python使用xlrd和xlwt读写Excel文件的实例代码
安装模块 如果使用的是Linux系统,并且安装了pip,可以直接使用pip安装xlrd, xlwt: pip install xlwt pip install xlrd 也可以从官网下载源代码安装: https://pypi.org/project/xlwt/1.1.2/ https://pypi.org/project/xlrd/ 下载tar.gz文件,解压,并转到解压后的目录中,找到setup.py,输入命令: sudo python setup.py install 安装完成. 导入模块:
-
Python实现爬虫从网络上下载文档的实例代码
最近在学习Python,自然接触到了爬虫,写了一个小型爬虫软件,从初始Url解析网页,使用正则获取待爬取链接,使用beautifulsoup解析获取文本,使用自己写的输出器可以将文本输出保存,具体代码如下: Spider_main.py # coding:utf8 from baike_spider import url_manager, html_downloader, html_parser, html_outputer class SpiderMain(object): def __ini
-
python爬取网易云音乐热歌榜实例代码
首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我的是保存在D盘-360下载-网易云热歌榜文件夹内,就可以完成下载. 如果文件夹没有提前建好,会报错[Errno 2] No such file or directory. 代码实现: from urllib import request from bs4 import BeautifulSoup i
随机推荐
- 基于Jquery.history解决ajax的前进后退问题
- 关于js中for in的缺陷浅析
- JS关键字球状旋转效果的实例代码
- Android省电的秘密之JobScheduler
- php文件缓存类汇总
- python创建临时文件夹的方法
- 基于jQuery的简单的列表导航菜单
- phpMyAdmin 后台拿webshell
- 一个完整的SQL SERVER数据库全文索引的示例介绍
- jQuery焦点图切换特效插件封装实例
- 基于Echarts 3.19 制作常用的图形(非静态)
- JS与Ajax Get和Post在使用上的区别实例详解
- apache 配置文件解说
- php的4种常见运行方式
- SpringCloud 中使用 Ribbon的方法详解
- python+opencv实现摄像头调用的方法
- .Net集合排序的一种高级玩法实例教程
- IntelliJ IDEA中查看文件内所有已声明的方法(类似eclipse的outline)
- puppeteer实现html截图的示例代码
- 对python制作自己的数据集实例讲解