Python爬虫之爬取淘女郎照片示例详解

本篇目标

  1. 抓取淘宝MM的姓名,头像,年龄
  2. 抓取每一个MM的资料简介以及写真图片
  3. 把每一个MM的写真图片按照文件夹保存到本地
  4. 熟悉文件保存的过程

1.URL的格式

在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面。

我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,以及MM的个人详情页面地址。

2.抓取简要信息

相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的MM详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下

import urllib
import urllib2
import re

class Spider:

  def __init__(self):
    self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'

  def getPage(self,pageIndex):
    url = self.siteURL + "?page=" + str(pageIndex)
    print url
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    return response.read().decode('gbk')

  def getContents(self,pageIndex):
    page = self.getPage(pageIndex)
    pattern = re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" .*?![]((.*?))(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
    items = re.findall(pattern,page)
    for item in items:
      print item[0],item[1],item[2],item[3],item[4]

spider = Spider()
spider.getContents(1)

运行结果如下

3.文件写入简介

在这里,我们有写入图片和写入文本两种方式

1)写入图片

#传入图片地址,文件名,保存单张图片
def saveImg(self,imageURL,fileName):
   u = urllib.urlopen(imageURL)
   data = u.read()
   f = open(fileName, 'wb')
   f.write(data)
   f.close()

2)写入文本

def saveBrief(self,content,name):
  fileName = name + "/" + name + ".txt"
  f = open(fileName,"w+")
  print u"正在偷偷保存她的个人信息为",fileName
  f.write(content.encode('utf-8'))

3)创建新目录

#创建新目录
def mkdir(self,path):
  path = path.strip()
  # 判断路径是否存在
  # 存在   True
  # 不存在  False
  isExists=os.path.exists(path)
  # 判断结果
  if not isExists:
    # 如果不存在则创建目录
    # 创建目录操作函数
    os.makedirs(path)
    return True
  else:
    # 如果目录存在则不创建,并提示目录已存在
    return False

4.代码完善

主要的知识点已经在前面都涉及到了,如果大家前面的章节都已经看了,完成这个爬虫不在话下,具体的详情在此不再赘述,直接帖代码啦。

spider.py

import urllib
import urllib2
import re
import tool
import os

#抓取MM
class Spider:

  #页面初始化
  def __init__(self):
    self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'
    self.tool = tool.Tool()

  #获取索引页面的内容
  def getPage(self,pageIndex):
    url = self.siteURL + "?page=" + str(pageIndex)
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    return response.read().decode('gbk')

  #获取索引界面所有MM的信息,list格式
  def getContents(self,pageIndex):
    page = self.getPage(pageIndex)
    pattern = re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" .*?![]((.*?))(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
    items = re.findall(pattern,page)
    contents = []
    for item in items:
      contents.append([item[0],item[1],item[2],item[3],item[4]])
    return contents

  #获取MM个人详情页面
  def getDetailPage(self,infoURL):
    response = urllib2.urlopen(infoURL)
    return response.read().decode('gbk')

  #获取个人文字简介
  def getBrief(self,page):
    pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
    result = re.search(pattern,page)
    return self.tool.replace(result.group(1))

  #获取页面所有图片
  def getAllImg(self,page):
    pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
    #个人信息页面所有代码
    content = re.search(pattern,page)
    #从代码中提取图片
    patternImg = re.compile('<img.*?src="(.*?)"',re.S)
    images = re.findall(patternImg,content.group(1))
    return images

  #保存多张写真图片
  def saveImgs(self,images,name):
    number = 1
    print u"发现",name,u"共有",len(images),u"张照片"
    for imageURL in images:
      splitPath = imageURL.split('.')
      fTail = splitPath.pop()
      if len(fTail) > 3:
        fTail = "jpg"
      fileName = name + "/" + str(number) + "." + fTail
      self.saveImg(imageURL,fileName)
      number += 1

  # 保存头像
  def saveIcon(self,iconURL,name):
    splitPath = iconURL.split('.')
    fTail = splitPath.pop()
    fileName = name + "/icon." + fTail
    self.saveImg(iconURL,fileName)

  #保存个人简介
  def saveBrief(self,content,name):
    fileName = name + "/" + name + ".txt"
    f = open(fileName,"w+")
    print u"正在偷偷保存她的个人信息为",fileName
    f.write(content.encode('utf-8'))

  #传入图片地址,文件名,保存单张图片
  def saveImg(self,imageURL,fileName):
     u = urllib.urlopen(imageURL)
     data = u.read()
     f = open(fileName, 'wb')
     f.write(data)
     print u"正在悄悄保存她的一张图片为",fileName
     f.close()

  #创建新目录
  def mkdir(self,path):
    path = path.strip()
    # 判断路径是否存在
    # 存在   True
    # 不存在  False
    isExists=os.path.exists(path)
    # 判断结果
    if not isExists:
      # 如果不存在则创建目录
      print u"偷偷新建了名字叫做",path,u'的文件夹'
      # 创建目录操作函数
      os.makedirs(path)
      return True
    else:
      # 如果目录存在则不创建,并提示目录已存在
      print u"名为",path,'的文件夹已经创建成功'
      return False

  #将一页淘宝MM的信息保存起来
  def savePageInfo(self,pageIndex):
    #获取第一页淘宝MM列表
    contents = self.getContents(pageIndex)
    for item in contents:
      #item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地
      print u"发现一位模特,名字叫",item[2],u"芳龄",item[3],u",她在",item[4]
      print u"正在偷偷地保存",item[2],"的信息"
      print u"又意外地发现她的个人地址是",item[0]
      #个人详情页面的URL
      detailURL = item[0]
      #得到个人详情页面代码
      detailPage = self.getDetailPage(detailURL)
      #获取个人简介
      brief = self.getBrief(detailPage)
      #获取所有图片列表
      images = self.getAllImg(detailPage)
      self.mkdir(item[2])
      #保存个人简介
      self.saveBrief(brief,item[2])
      #保存头像
      self.saveIcon(item[1],item[2])
      #保存图片
      self.saveImgs(images,item[2])

  #传入起止页码,获取MM图片
  def savePagesInfo(self,start,end):
    for i in range(start,end+1):
      print u"正在偷偷寻找第",i,u"个地方,看看MM们在不在"
      self.savePageInfo(i)

#传入起止页码即可,在此传入了2,10,表示抓取第2到10页的MM
spider = Spider()
spider.savePagesInfo(2,10)

tool.py

import re

#处理页面标签类
class Tool:
  #去除img标签,1-7位空格,
  removeImg = re.compile('<img.*?>| {1,7}| ')
  #删除超链接标签
  removeAddr = re.compile('<a.*?>|</a>')
  #把换行的标签换为\n
  replaceLine = re.compile('<tr>|<div>|</div>|</p>')
  #将表格制表<td>替换为\t
  replaceTD= re.compile('<td>')
  #将换行符或双换行符替换为\n
  replaceBR = re.compile('<br><br>|<br>')
  #将其余标签剔除
  removeExtraTag = re.compile('<.*?>')
  #将多行空行删除
  removeNoneLine = re.compile('\n+')
  def replace(self,x):
    x = re.sub(self.removeImg,"",x)
    x = re.sub(self.removeAddr,"",x)
    x = re.sub(self.replaceLine,"\n",x)
    x = re.sub(self.replaceTD,"\t",x)
    x = re.sub(self.replaceBR,"\n",x)
    x = re.sub(self.removeExtraTag,"",x)
    x = re.sub(self.removeNoneLine,"\n",x)
    #strip()将前后多余内容删除
    return x.strip()

以上两个文件就是所有的代码内容,运行一下试试看,那叫一个酸爽啊

到此这篇关于Python爬虫之爬取淘女郎照片示例详解的文章就介绍到这了,更多相关Python 爬取淘女郎照片内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬虫提取百度搜索内容,同时再进一步提取内容分析就可以简便搜索过程.详细案例如下: 代码如下 # coding=utf8 import urllib2 import string import urllib import re import random #设置多个user_agents,防止百度限制I

  • Python爬虫实例——爬取美团美食数据

    1.分析美团美食网页的url参数构成 1)搜索要点 美团美食,地址:北京,搜索关键词:火锅 2)爬取的url https://bj.meituan.com/s/%E7%81%AB%E9%94%85/ 3)说明 url会有自动编码中文功能.所以火锅二字指的就是这一串我们不认识的代码%E7%81%AB%E9%94%85. 通过关键词城市的url构造,解析当前url中的bj=北京,/s/后面跟搜索关键词. 这样我们就可以了解到当前url的构造. 2.分析页面数据来源(F12开发者工具) 开启F12开发

  • 利用python爬取斗鱼app中照片方法实例

    前言 没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 最近看到斗鱼里的照片都不错,决定用最新学习的python技术进行爬取,下面将实现的过程分享出来供大家参考,下面话不多说了,来一起看看详细的介绍吧. 方法如下: 首先下载一个斗鱼(不下载也可以,url都在这了对吧) 通过抓包,抓取到一个json的数据包,得到下面的地址 观察测试可知,通过修改offset值就是相当于app的翻页 访问这个url,返回得到的是

  • python爬虫爬取笔趣网小说网站过程图解

    首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序. Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码. 你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了.然后,你仅仅

  • Python爬虫爬取新闻资讯案例详解

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 一个简单的Python资讯采集案例,列表页到详情页,到数据保存,保存为txt文档,网站网页结构算是比较规整,简单清晰明了,资讯新闻内容的采集和保存! 应用到的库 requests,time,re,UserAgent,etree import requests,time,re from fake_useragent import UserAgent from lxml im

  • Python爬虫爬取电影票房数据及图表展示操作示例

    本文实例讲述了Python爬虫爬取电影票房数据及图表展示操作.分享给大家供大家参考,具体如下: 爬虫电影历史票房排行榜 http://www.cbooo.cn/BoxOffice/getInland?pIndex=1&t=0 Python爬取历史电影票房纪录 解析Json数据 横向条形图展示 面向对象思想 导入相关库 import requests import re from matplotlib import pyplot as plt from matplotlib import font

  • Python爬虫实现的根据分类爬取豆瓣电影信息功能示例

    本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口: if __name__ == '__main__': main() #! /usr/bin/python3 # -*- coding:utf-8 -*- # author:Sirius.Zhao import json from urllib.parse import quote from urllib.request import urlopen from urllib.reque

  • Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了 直接上源代码: import urllib.request import os def url_open(url): req = urllib.reques

  • Python爬虫之爬取淘女郎照片示例详解

    本篇目标 抓取淘宝MM的姓名,头像,年龄 抓取每一个MM的资料简介以及写真图片 把每一个MM的写真图片按照文件夹保存到本地 熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址.点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面. 我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,

  • python爬虫使用requests发送post请求示例详解

    简介 HTTP协议规定post提交的数据必须放在消息主体中,但是协议并没有规定必须使用什么编码方式.服务端通过是根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析.具体的编码方式包括: application/x-www-form-urlencoded 最常见post提交数据的方式,以form表单形式提交数据. application/json 以json串提交数据. multipart/form-data 一般使用来上传文件. 一. 以f

  • Python爬虫之爬取2020女团选秀数据

    一.先看结果 1.1创造营2020撑腰榜前三甲 创造营2020撑腰榜前三名分别是 希林娜依·高.陈卓璇 .郑乃馨 >>>df1[df1['排名']<=3 ][['排名','姓名','身高','体重','生日','出生地']] 排名 姓名 身高 体重 生日 出生地 0 1.0 希林娜依·高 NaN NaN 1998年07月31日 新疆 1 2.0 陈卓璇 168.0 42.0 1997年08月13日 贵州 2 3.0 郑乃馨 NaN NaN 1997年06月25日 泰国 1.2青春有

  • python爬虫之爬取笔趣阁小说

    前言 为了上班摸鱼方便,今天自己写了个爬取笔趣阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 一.首先导入相关的模块 import os import requests from bs4 import BeautifulSoup 二.向网站发送请求并获取网站数据 网站链接最后的一位数字为一本书的id值,一个数字对应一本小说,我们以id为1的小说为示例. 进入到网站之后,我们发现有一个章节列表,那么我们首先完成对小说列表名称的抓取 # 声明请求头 headers = { 'Use

  • Python爬虫实例爬取网站搞笑段子

    众所周知,python是写爬虫的利器,今天作者用python写一个小爬虫爬下一个段子网站的众多段子. 目标段子网站为"http://ishuo.cn/",我们先分析其下段子的所在子页的url特点,可以轻易发现发现为"http://ishuo.cn/subject/"+数字, 经过测试发现,该网站的反扒机制薄弱,可以轻易地爬遍其所有站点. 现在利用python的re及urllib库将其所有段子扒下 import sys import re import urllib

  • Python爬虫实现爬取京东手机页面的图片(实例代码)

    实例如下所示: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib.request import urlretrieve class Picture(): def __init__(self): self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleW

  • python爬虫之爬取百度音乐的实现方法

    在上次的爬虫中,抓取的数据主要用到的是第三方的Beautifulsoup库,然后对每一个具体的数据在网页中的selecter来找到它,每一个类别便有一个select方法.对网页有过接触的都知道很多有用的数据都放在一个共同的父节点上,只是其子节点不同.在上次爬虫中,每一类数据都要从其父类(包括其父节点的父节点)上往下寻找ROI数据所在的子节点,这样就会使爬虫很臃肿,因为很多数据有相同的父节点,每次都要重复的找到这个父节点.这样的爬虫效率很低. 因此,笔者在上次的基础上,改进了一下爬取的策略,笔者以

  • Python爬虫实现爬取百度百科词条功能实例

    本文实例讲述了Python爬虫实现爬取百度百科词条功能.分享给大家供大家参考,具体如下: 爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件.爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列.然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页

  • python 爬虫一键爬取 淘宝天猫宝贝页面主图颜色图和详情图的教程

    实例如下所示: import requests import re,sys,os import json import threading import pprint class spider: def __init__(self,sid,name): self.id = sid self.headers = { "Accept":"text/html,application/xhtml+xml,application/xml;", "Accept-Enc

  • Python爬虫将爬取的图片写入world文档的方法

    作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片: with open('123.doc','wb')as file: file.write(response.content) file.close() 结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法. 于是我就开始了新的

随机推荐