Python实现并行抓取整站40万条房价数据（可更换抓取城市）

2025-04-11 15:23:07

写在前面

这次的爬虫是关于房价信息的抓取，目的在于练习10万以上的数据处理及整站式抓取。

数据量的提升最直观的感觉便是对函数逻辑要求的提高，针对Python的特性，谨慎的选择数据结构。以往小数据量的抓取，即使函数逻辑部分重复，I/O请求频率密集，循环套嵌过深，也不过是1~2s的差别，而随着数据规模的提高，这1~2s的差别就有可能扩展成为1~2h。

因此对于要抓取数据量较多的网站，可以从两方面着手降低抓取信息的时间成本。

1）优化函数逻辑，选择适当的数据结构，符合Pythonic的编程习惯。例如，字符串的合并，使用join（）要比“+”节省内存空间。

2）依据I/O密集与CPU密集，选择多线程、多进程并行的执行方式，提高执行效率。

一、获取索引

包装请求request，设置超时timeout

# 获取列表页面
def get_page(url):
 headers = {
  'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
      r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
  'Referer': r'http://bj.fangjia.com/ershoufang/',
  'Host': r'bj.fangjia.com',
  'Connection': 'keep-alive'
 }
 timeout = 60
 socket.setdefaulttimeout(timeout) # 设置超时
 req = request.Request(url, headers=headers)
 response = request.urlopen(req).read()
 page = response.decode('utf-8')
 return page

一级位置：区域信息

二级位置：板块信息（根据区域位置得到板块信息，以key_value对的形式存储在dict中）

以dict方式存储，可以快速的查询到所要查找的目标。-> {'朝阳'：{'工体'，'安贞'，'健翔桥'......}}

三级位置：地铁信息（搜索地铁周边房源信息）

将所属位置地铁信息，添加至dict中。 -> {'朝阳'：{'工体'：{'5号线'，'10号线' , '13号线'}，'安贞'，'健翔桥'......}}

对应的url：http://bj.fangjia.com/ershoufang/--r-%E6%9C%9D%E9%98%B3%7Cw-5%E5%8F%B7%E7%BA%BF%7Cb-%E6%83%A0%E6%96%B0%E8%A5%BF%E8%A1%97

解码后的url：http://bj.fangjia.com/ershoufang/--r-朝阳|w-5号线|b-惠新西街

根据url的参数模式，可以有两种方式获取目的url：

1）根据索引路径获得目的url

# 获取房源信息列表(嵌套字典遍历)
def get_info_list(search_dict, layer, tmp_list, search_list):
 layer += 1 # 设置字典层级
 for i in range(len(search_dict)):
  tmp_key = list(search_dict.keys())[i] # 提取当前字典层级key
  tmp_list.append(tmp_key) # 将当前key值作为索引添加至tmp_list
  tmp_value = search_dict[tmp_key]
  if isinstance(tmp_value, str): # 当键值为url时
   tmp_list.append(tmp_value) # 将url添加至tmp_list
   search_list.append(copy.deepcopy(tmp_list)) # 将tmp_list索引url添加至search_list
   tmp_list = tmp_list[:layer] # 根据层级保留索引
  elif tmp_value == '': # 键值为空时跳过
   layer -= 2   # 跳出键值层级
   tmp_list = tmp_list[:layer] # 根据层级保留索引
  else:
   get_info_list(tmp_value, layer, tmp_list, search_list) # 当键值为列表时，迭代遍历
   tmp_list = tmp_list[:layer]
 return search_list

2）根据dict信息包装url

{'朝阳'：{'工体'：{'5号线'}}}

参数：

——　　r-朝阳

——　　b-工体

——　　w-5号线

组装参数：http://bj.fangjia.com/ershoufang/--r-朝阳|w-5号线|b-工体

1 # 根据参数创建组合url
2 def get_compose_url(compose_tmp_url, tag_args, key_args):
3  compose_tmp_url_list = [compose_tmp_url, '|' if tag_args != 'r-' else '', tag_args, parse.quote(key_args), ]
4  compose_url = ''.join(compose_tmp_url_list)
5  return compose_url

二、获取索引页最大页数

# 获取当前索引页面页数的url列表
def get_info_pn_list(search_list):
 fin_search_list = []
 for i in range(len(search_list)):
  print('>>>正在抓取%s' % search_list[i][:3])
  search_url = search_list[i][3]
  try:
   page = get_page(search_url)
  except:
   print('获取页面超时')
   continue
  soup = BS(page, 'lxml')
  # 获取最大页数
  pn_num = soup.select('span[class="mr5"]')[0].get_text()
  rule = re.compile(r'\d+')
  max_pn = int(rule.findall(pn_num)[1])
  # 组装url
  for pn in range(1, max_pn+1):
   print('************************正在抓取%s页************************' % pn)
   pn_rule = re.compile('[|]')
   fin_url = pn_rule.sub(r'|e-%s|' % pn, search_url, 1)
   tmp_url_list = copy.deepcopy(search_list[i][:3])
   tmp_url_list.append(fin_url)
   fin_search_list.append(tmp_url_list)
 return fin_search_list

三、抓取房源信息Tag

这是我们要抓取的Tag：

['区域', '板块', '地铁', '标题', '位置', '平米', '户型', '楼层', '总价', '单位平米价格']

# 获取tag信息
def get_info(fin_search_list, process_i):
 print('进程%s开始' % process_i)
 fin_info_list = []
 for i in range(len(fin_search_list)):
  url = fin_search_list[i][3]
  try:
   page = get_page(url)
  except:
   print('获取tag超时')
   continue
  soup = BS(page, 'lxml')
  title_list = soup.select('a[class="h_name"]')
  address_list = soup.select('span[class="address]')
  attr_list = soup.select('span[class="attribute"]')
  price_list = soup.find_all(attrs={"class": "xq_aprice xq_esf_width"}) # select对于某些属性值（属性值中间包含空格）无法识别，可以用find_all(attrs={})代替
  for num in range(20):
   tag_tmp_list = []
   try:
    title = title_list[num].attrs["title"]
    print(r'************************正在获取%s************************' % title)
    address = re.sub('\n', '', address_list[num].get_text())
    area = re.search('\d+[\u4E00-\u9FA5]{2}', attr_list[num].get_text()).group(0)
    layout = re.search('\d[^0-9]\d.', attr_list[num].get_text()).group(0)
    floor = re.search('\d/\d', attr_list[num].get_text()).group(0)
    price = re.search('\d+[\u4E00-\u9FA5]', price_list[num].get_text()).group(0)
    unit_price = re.search('\d+[\u4E00-\u9FA5]/.', price_list[num].get_text()).group(0)
    tag_tmp_list = copy.deepcopy(fin_search_list[i][:3])
    for tag in [title, address, area, layout, floor, price, unit_price]:
     tag_tmp_list.append(tag)
    fin_info_list.append(tag_tmp_list)
   except:
    print('【抓取失败】')
    continue
 print('进程%s结束' % process_i)
 return fin_info_list

四、分配任务，并行抓取

对任务列表进行分片，设置进程池，并行抓取。

# 分配任务
def assignment_search_list(fin_search_list, project_num): # project_num每个进程包含的任务数，数值越小，进程数越多
 assignment_list = []
 fin_search_list_len = len(fin_search_list)
 for i in range(0, fin_search_list_len, project_num):
  start = i
  end = i+project_num
  assignment_list.append(fin_search_list[start: end]) # 获取列表碎片
 return assignment_list

 p = Pool(4) # 设置进程池
 assignment_list = assignment_search_list(fin_info_pn_list, 3) # 分配任务，用于多进程
 result = [] # 多进程结果列表
 for i in range(len(assignment_list)):
  result.append(p.apply_async(get_info, args=(assignment_list[i], i)))
 p.close()
 p.join()
 for result_i in range(len(result)):
  fin_info_result_list = result[result_i].get()
  fin_save_list.extend(fin_info_result_list) # 将各个进程获得的列表合并

通过设置进程池并行抓取，时间缩短为单进程抓取时间的3/1，总计时间3h。

电脑为4核，经过测试，任务数为3时，在当前电脑运行效率最高。

五、将抓取结果存储到excel中，等待可视化数据化处理

# 存储抓取结果
def save_excel(fin_info_list, file_name):
 tag_name = ['区域', '板块', '地铁', '标题', '位置', '平米', '户型', '楼层', '总价', '单位平米价格']
 book = xlsxwriter.Workbook(r'C:\Users\Administrator\Desktop\%s.xls' % file_name) # 默认存储在桌面上
 tmp = book.add_worksheet()
 row_num = len(fin_info_list)
 for i in range(1, row_num):
  if i == 1:
   tag_pos = 'A%s' % i
   tmp.write_row(tag_pos, tag_name)
  else:
   con_pos = 'A%s' % i
   content = fin_info_list[i-1] # -1是因为被表格的表头所占
   tmp.write_row(con_pos, content)
 book.close()

附上源码

#! -*-coding:utf-8-*-
# Function: 房价调查
# Author：蘭兹
from urllib import parse, request
from bs4 import BeautifulSoup as BS
from multiprocessing import Pool
import re
import lxml
import datetime
import cProfile
import socket
import copy
import xlsxwriter
starttime = datetime.datetime.now()
base_url = r'http://bj.fangjia.com/ershoufang/'
test_search_dict = {'昌平': {'霍营': {'13号线': 'http://bj.fangjia.com/ershoufang/--r-%E6%98%8C%E5%B9%B3|w-13%E5%8F%B7%E7%BA%BF|b-%E9%9C%8D%E8%90%A5'}}}
search_list = [] # 房源信息url列表
tmp_list = [] # 房源信息url缓存列表
layer = -1
# 获取列表页面
def get_page(url):
 headers = {
  'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
      r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
  'Referer': r'http://bj.fangjia.com/ershoufang/',
  'Host': r'bj.fangjia.com',
  'Connection': 'keep-alive'
 }
 timeout = 60
 socket.setdefaulttimeout(timeout) # 设置超时
 req = request.Request(url, headers=headers)
 response = request.urlopen(req).read()
 page = response.decode('utf-8')
 return page
# 获取查询关键词dict
def get_search(page, key):
 soup = BS(page, 'lxml')
 search_list = soup.find_all(href=re.compile(key), target='')
 search_dict = {}
 for i in range(len(search_list)):
  soup = BS(str(search_list[i]), 'lxml')
  key = soup.select('a')[0].get_text()
  value = soup.a.attrs['href']
  search_dict[key] = value
 return search_dict
# 获取房源信息列表(嵌套字典遍历)
def get_info_list(search_dict, layer, tmp_list, search_list):
 layer += 1 # 设置字典层级
 for i in range(len(search_dict)):
  tmp_key = list(search_dict.keys())[i] # 提取当前字典层级key
  tmp_list.append(tmp_key) # 将当前key值作为索引添加至tmp_list
  tmp_value = search_dict[tmp_key]
  if isinstance(tmp_value, str): # 当键值为url时
   tmp_list.append(tmp_value) # 将url添加至tmp_list
   search_list.append(copy.deepcopy(tmp_list)) # 将tmp_list索引url添加至search_list
   tmp_list = tmp_list[:layer] # 根据层级保留索引
  elif tmp_value == '': # 键值为空时跳过
   layer -= 2   # 跳出键值层级
   tmp_list = tmp_list[:layer] # 根据层级保留索引
  else:
   get_info_list(tmp_value, layer, tmp_list, search_list) # 当键值为列表时，迭代遍历
   tmp_list = tmp_list[:layer]
 return search_list
# 获取房源信息详情
def get_info_pn_list(search_list):
 fin_search_list = []
 for i in range(len(search_list)):
  print('>>>正在抓取%s' % search_list[i][:3])
  search_url = search_list[i][3]
  try:
   page = get_page(search_url)
  except:
   print('获取页面超时')
   continue
  soup = BS(page, 'lxml')
  # 获取最大页数
  pn_num = soup.select('span[class="mr5"]')[0].get_text()
  rule = re.compile(r'\d+')
  max_pn = int(rule.findall(pn_num)[1])
  # 组装url
  for pn in range(1, max_pn+1):
   print('************************正在抓取%s页************************' % pn)
   pn_rule = re.compile('[|]')
   fin_url = pn_rule.sub(r'|e-%s|' % pn, search_url, 1)
   tmp_url_list = copy.deepcopy(search_list[i][:3])
   tmp_url_list.append(fin_url)
   fin_search_list.append(tmp_url_list)
 return fin_search_list
# 获取tag信息
def get_info(fin_search_list, process_i):
 print('进程%s开始' % process_i)
 fin_info_list = []
 for i in range(len(fin_search_list)):
  url = fin_search_list[i][3]
  try:
   page = get_page(url)
  except:
   print('获取tag超时')
   continue
  soup = BS(page, 'lxml')
  title_list = soup.select('a[class="h_name"]')
  address_list = soup.select('span[class="address]')
  attr_list = soup.select('span[class="attribute"]')
  price_list = soup.find_all(attrs={"class": "xq_aprice xq_esf_width"}) # select对于某些属性值（属性值中间包含空格）无法识别，可以用find_all(attrs={})代替
  for num in range(20):
   tag_tmp_list = []
   try:
    title = title_list[num].attrs["title"]
    print(r'************************正在获取%s************************' % title)
    address = re.sub('\n', '', address_list[num].get_text())
    area = re.search('\d+[\u4E00-\u9FA5]{2}', attr_list[num].get_text()).group(0)
    layout = re.search('\d[^0-9]\d.', attr_list[num].get_text()).group(0)
    floor = re.search('\d/\d', attr_list[num].get_text()).group(0)
    price = re.search('\d+[\u4E00-\u9FA5]', price_list[num].get_text()).group(0)
    unit_price = re.search('\d+[\u4E00-\u9FA5]/.', price_list[num].get_text()).group(0)
    tag_tmp_list = copy.deepcopy(fin_search_list[i][:3])
    for tag in [title, address, area, layout, floor, price, unit_price]:
     tag_tmp_list.append(tag)
    fin_info_list.append(tag_tmp_list)
   except:
    print('【抓取失败】')
    continue
 print('进程%s结束' % process_i)
 return fin_info_list
# 分配任务
def assignment_search_list(fin_search_list, project_num): # project_num每个进程包含的任务数，数值越小，进程数越多
 assignment_list = []
 fin_search_list_len = len(fin_search_list)
 for i in range(0, fin_search_list_len, project_num):
  start = i
  end = i+project_num
  assignment_list.append(fin_search_list[start: end]) # 获取列表碎片
 return assignment_list
# 存储抓取结果
def save_excel(fin_info_list, file_name):
 tag_name = ['区域', '板块', '地铁', '标题', '位置', '平米', '户型', '楼层', '总价', '单位平米价格']
 book = xlsxwriter.Workbook(r'C:\Users\Administrator\Desktop\%s.xls' % file_name) # 默认存储在桌面上
 tmp = book.add_worksheet()
 row_num = len(fin_info_list)
 for i in range(1, row_num):
  if i == 1:
   tag_pos = 'A%s' % i
   tmp.write_row(tag_pos, tag_name)
  else:
   con_pos = 'A%s' % i
   content = fin_info_list[i-1] # -1是因为被表格的表头所占
   tmp.write_row(con_pos, content)
 book.close()
if __name__ == '__main__':
 file_name = input(r'抓取完成，输入文件名保存：')
 fin_save_list = [] # 抓取信息存储列表
 # 一级筛选
 page = get_page(base_url)
 search_dict = get_search(page, 'r-')
 # 二级筛选
 for k in search_dict:
  print(r'************************一级抓取：正在抓取【%s】************************' % k)
  url = search_dict[k]
  second_page = get_page(url)
  second_search_dict = get_search(second_page, 'b-')
  search_dict[k] = second_search_dict
 # 三级筛选
 for k in search_dict:
  second_dict = search_dict[k]
  for s_k in second_dict:
   print(r'************************二级抓取：正在抓取【%s】************************' % s_k)
   url = second_dict[s_k]
   third_page = get_page(url)
   third_search_dict = get_search(third_page, 'w-')
   print('%s>%s' % (k, s_k))
   second_dict[s_k] = third_search_dict
 fin_info_list = get_info_list(search_dict, layer, tmp_list, search_list)
 fin_info_pn_list = get_info_pn_list(fin_info_list)
 p = Pool(4) # 设置进程池
 assignment_list = assignment_search_list(fin_info_pn_list, 2) # 分配任务，用于多进程
 result = [] # 多进程结果列表
 for i in range(len(assignment_list)):
  result.append(p.apply_async(get_info, args=(assignment_list[i], i)))
 p.close()
 p.join()
 for result_i in range(len(result)):
  fin_info_result_list = result[result_i].get()
  fin_save_list.extend(fin_info_result_list) # 将各个进程获得的列表合并
 save_excel(fin_save_list, file_name)
 endtime = datetime.datetime.now()
 time = (endtime - starttime).seconds
 print('总共用时：%s s' % time)

总结：

当抓取数据规模越大，对程序逻辑要求就愈严谨，对python语法要求就越熟练。如何写出更加pythonic的语法，也需要不断学习掌握的。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，同时也希望多多支持我们！

python正则匹配抓取豆瓣电影链接和评论代码分享

复制代码代码如下: import urllib.requestimport reimport time def movie(movieTag): tagUrl=urllib.request.urlopen(url) tagUrl_read = tagUrl.read().decode('utf-8') return tagUrl_read def subject(tagUrl_read): ''' 这里还存在问题: ①这只针对单独的一页进行排序,而没有
Python使用正则表达式抓取网页图片的方法示例

本文实例讲述了Python使用正则表达式抓取网页图片的方法.分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): #匹配网页中的图片 reg = r'src="(.*?\.jpg)" alt' imgre = re.com
python正则表达式抓取成语网站

1.首先找到一个在线成语网站 2.查看网页结构,定义正则式看一下要抓的成语的标签有什么特点,查看源码,可以发现要抓的成语都在<a>标签中,如:<a href="/cy0/93.html">安如磐石</a>,成语事实上就是一个瞄文本,不同成语指向的链接不同,其实也就"/cy0/93.html"中的数字不同,所以正则式里匹配两次数字就行了,定义正则式 reg = "<a href=\"/cy(\d+)/
python实现多线程抓取知乎用户

需要用到的包: beautifulsoup4 html5lib image requests redis PyMySQL pip安装所有依赖包: pip install \ Image \ requests \ beautifulsoup4 \ html5lib \ redis \ PyMySQL 运行环境需要支持中文测试运行环境python3.5,不保证其他运行环境能完美运行需要安装mysql和redis 配置 config.ini 文件,设置好mysql和redis,并且填写你的知乎帐号
Python抓取电影天堂电影信息的代码

Python2.7Mac OS 抓取的是电影天堂里面最新电影的页面.链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html 获取页面的中电影详情页链接 import urllib2 import os import re import string # 电影URL集合 movieUrls = [] # 获取电影列表 def queryMovieList(): url = 'http://www.dytt8.net/html/gndy/dyzz/i
Python使用正则表达式实现文本替换的方法

本文实例讲述了Python使用正则表达式实现文本替换的方法.分享给大家供大家参考,具体如下: 2D客户端编程从某种意义上来讲就是素材组织,所以,图片素材组织经常需要批量处理,python一定是最佳选择,不管是win/linux/mac都有一个简单的运行环境举两个应用场景: ① 如果不是在某个文件夹里面则将文件夹名称插入前面 ② 所有的文件名名称加上一个前缀直接看代码吧: # encoding: UTF-8 import re # 将正则表达式编译成Pattern对象 p = re.compi
详解python3百度指数抓取实例

百度指数抓取,再用图像识别得到指数前言: 土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字: 哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福安装的库很多: 谷歌图像识别tesseract-ocr pip3 install pillow pip3 install pyocr selenium2.45 Chrome47.0.2526.106 m or Firebox32.0.1 chromedriver.exe 图像识别验证码请参考:http://ww
利用Python抓取行政区划码的方法

前言国家统计局网站上有相对比较齐的行政区划码,对于一些网站来说这是非常基础的数据,所以写了个Python程序将这部分数据抓取下来. 注意:抓取下来以后还要进行简单的人工的整理示例代码: # -*- coding:utf-8 -*- ''' 获取国家统计局上的行政区划码 ''' import requests,re base_url = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201504/t20150415_712722.html' def get
编写Python爬虫抓取暴走漫画上gif图片的实例分享

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看.爬虫用的是python3.3开发的,主要用到了urllib.request和BeautifulSoup模块. urllib模块提供了从万维网中获取数据的高层接口,当我们用urlopen()打开一个URL时,就相当于我们用Python内建的open()打开一个文件.但不同的是,前者接收一个URL作为参数,并且没有办法对打开的文件流进行seek操作(从底层的角度看,因为实际上操作的是socket,所以理所当然地没办法进行seek操作),而后
Python使用Srapy框架爬虫模拟登陆并抓取知乎内容

一.Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括: Cookie名字(Name)Cookie的值(Value) Cookie的过期时间(Expires/Max-Age) Cookie作用路径(Path) Cookie所在域名(Domain),使用Cookie进行安全连接(Secure) 前两个参数是Cookie应用的必要条件,另外,还包括Cookie大小(Size,不同浏览器对Cookie个数及大
Python正则抓取网易新闻的方法示例

本文实例讲述了Python正则抓取网易新闻的方法.分享给大家供大家参考,具体如下: 自己写了些关于抓取网易新闻的爬虫,发现其网页源代码与网页的评论根本就对不上,所以,采用了抓包工具得到了其评论的隐藏地址(每个浏览器都有自己的抓包工具,都可以用来分析网站) 如果仔细观察的话就会发现,有一个特殊的,那么这个就是自己想要的了然后打开链接就可以找到相关的评论内容了.(下图为第一页内容) 接下来就是代码了(也照着大神的改改写写了). #coding=utf-8 import urllib2 import
python制作爬虫并将抓取结果保存到excel中

学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求,将我们所需要的内容通过浏览器解析,呈现在我们的面前. 可以看到我们发出的请求当中,FormData中的kd参数,就代表着向服务器请求关键词为Python的招聘信息. 分析比较复杂的页面请求与响应信息,
基于python实现的抓取腾讯视频所有电影的爬虫

我搜集了国内10几个电影网站的数据,里面近几十W条记录,用文本没法存,mongodb学习成本非常低,安装.下载.运行起来不会花你5分钟时间. # -*- coding: utf-8 -*- # by awakenjoys. my site: www.dianying.at import re import urllib2 from bs4 import BeautifulSoup import string, time import pymongo NUM = 0 #全局变量,电影数量 m_ty

Python实现并行抓取整站40万条房价数据（可更换抓取城市）

相关推荐

随机推荐