python爬虫获取淘宝天猫商品详细参数

首先我是从淘宝进去,爬取了按销量排序的所有(100页)女装的列表信息按综合、销量分别爬取淘宝女装列表信息,然后导出前100商品的 link,爬取其详细信息。这些商品有淘宝的,也有天猫的,这两个平台有些区别,处理的时候要注意。比如,有的说“面料”、有的说“材质成分”,其实是一个意思,等等。可以取不同的链接做一下测试。

import re
from collections import OrderedDict
from bs4 import BeautifulSoup
from pyquery import PyQuery as pq  #获取整个网页的源代码
from config import *  #可引用congif的所有变量 

import pymysql
import urllib
import json
import bs4
import requests
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from pyquery import PyQuery as pq  #获取整个网页的源代码
import pandas as pd 

# 测试 淘宝+天猫,可完整输出及保存 

browser = webdriver.Firefox()
wait = WebDriverWait(browser,10) 

####### 天猫上半部分详情 #############
def get_tianmao_header(url):
  browser.get(url)
  # wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #加载所有宝贝
  html=browser.page_source
  doc = pq(html)
  # print(doc)
  info = OrderedDict() # 存放该商品所具有的全部信息
  items = doc('#page') 

  # info['店铺名'] = items.find('.slogo').find('.slogo-shopname').text()
  # info['ID'] = items.find('#LineZing').attr['itemid']
  info['宝贝'] = items.find('.tb-detail-hd').find('h1').text()
  info['促销价'] = items.find('#J_PromoPrice').find('.tm-promo-price').find('.tm-price').text()
  info['原价'] = items.find('#J_StrPriceModBox').find('.tm-price').text()
  # '月销量' :items.find('.tm-ind-panel').find('.tm-ind-item tm-ind-sellCount').find('.tm-indcon').find('.tm-count').text(),
  info['月销量'] = items.find('.tm-ind-panel').find('.tm-indcon').find('.tm-count').text().split(' ',2)[0]
  info['累计评价'] = items.find('#J_ItemRates').find('.tm-indcon').find('.tm-count').text()
  # print(info)
  return info 

######## 淘宝上半部分详情 ###############
def get_taobao_header(url):
  browser.get(url)
  # wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #加载所有宝贝
  html=browser.page_source
  doc = pq(html)
  # print(doc)
  info = OrderedDict() # 存放该商品所具有的全部信息
  items = doc('#page') 

  # info['店铺名'] = items.find('.tb-shop-seller').find('.tb-seller-name').text()
  # info['ID'] = items.find('#J_Pine').attr['data-itemid']
  info['宝贝'] = items.find('#J_Title').find('h3').text()
  info['原价'] = items.find('#J_StrPrice').find('.tb-rmb-num').text()
  info['促销价'] = items.find('#J_PromoPriceNum').text()
  # '月销量' :items.find('.tm-ind-panel').find('.tm-ind-item tm-ind-sellCount').find('.tm-indcon').find('.tm-count').text(),
  info['月销量'] = items.find('#J_SellCounter').text()
  info['累计评价'] = items.find('#J_RateCounter').text()
  # print(info)
  return info 

####################### 详情 ############################
# 抓取所有商品详情
def get_Details(attrs,info):
  # res = requests.get(url)
  # soup = BeautifulSoup(res.text, "html.parser")
  #
  # attrs = soup.select('.attributes-list li') 

  # attrs= [<li title=" 薄">厚薄: 薄</li>, <li title=" 其他100%">材质成分: 其他100%</li>,<li ...</li>]
  attrs_name = []
  attrs_value = []
  '''''
  [\s] 匹配空格,[\s]*,后面有 *,则可以为空
  * : 匹配前面的子表达式任意次
  ''' 

  for attr in attrs:
    attrs_name.append(re.search(r'(.*?):[\s]*(.*)', attr.text).group(1))
    attrs_value.append(re.search(r'(.*?):[\s]*(.*)', attr.text).group(2)) 

  # print('attrs_name=',attrs_name)  # attrs_name= ['厚薄', '材质成分', ...]
  # print('attrs_value=',attrs_value)  # attrs_value= ['薄', '其他100%', ...] 

  allattrs = OrderedDict() # 存放该产品详情页面所具有的属性
  for k in range(0, len(attrs_name)):
    allattrs[attrs_name[k]] = attrs_value[k]
  # print('allattrs=',allattrs)  # allattrs= OrderedDict([('厚薄', '薄'), ('材质成分', '其他100%'),...]) 

  # info = OrderedDict() # 存放该商品所具有的全部信息
  # info = get_headdetail2(url) 

  # 下面三条语句获取描述、服务、物流的评分信息 

  # 下面的语句用来判断该商品具有哪些属性,如果具有该属性,将属性值插入有序字典,否则,该属性值为空
  # 适用场景
  if '材质成分' in attrs_name:
    info['材质成分'] = allattrs['材质成分']
  elif '面料' in attrs_name:
    info['材质成分'] = allattrs['面料']
  else:
    info['材质成分'] = 'NA' 

  # 适用对象
  if '流行元素' in attrs_name:
    info['流行元素'] = allattrs['流行元素']
  else:
    info['流行元素'] = 'NA' 

  #季节
  if '年份季节' in attrs_name:
    info['年份季节'] = allattrs['年份季节']
  else:
    info['年份季节'] = 'NA' 

  # 款式
  if '袖长' in attrs_name:
    info['袖长'] = allattrs['袖长']
  else:
    info['袖长'] = 'NA'
  # 尺码
  if '销售渠道类型' in attrs_name:
    info['销售渠道类型'] = allattrs['销售渠道类型']
  else:
    info['销售渠道类型'] = 'NA'
  # 帽顶款式
  if '货号' in attrs_name:
    info['货号'] = allattrs['货号']
  else:
    info['货号'] = 'NA'
  # 帽檐款式
  if '服装版型' in attrs_name:
    info['服装版型'] = allattrs['服装版型']
  else:
    info['服装版型'] = 'NA'
  # 檐形
  if '衣长' in attrs_name:
    info['衣长'] = allattrs['衣长']
  else:
    info['衣长'] = 'NA'
  # 主要材质
  if '领型' in attrs_name:
    info['领型'] = allattrs['领型']
  else:
    info['领型'] = 'NA'
  # 人群
  if '袖型' in attrs_name:
    info['袖型'] = allattrs['袖型']
  else:
    info['袖型'] = 'NA'
  # 品牌
  if '品牌' in attrs_name:
    info['品牌'] = allattrs['品牌']
  else:
    info['品牌'] = 'NA'
  # 风格
  if '图案' in attrs_name:
    info['图案'] = allattrs['图案']
  elif '中老年女装图案' in attrs_name:
    info['图案'] = allattrs['中老年女装图案']
  else:
    info['图案'] = 'NA' 

  # 款式细节
  if '服装款式细节' in attrs_name:
    info['服装款式细节'] = allattrs['服装款式细节']
  else:
    info['服装款式细节'] = 'NA' 

  # 适用年龄
  if '适用年龄' in attrs_name:
    info['适用年龄'] = allattrs['适用年龄']
  else:
    info['适用年龄'] = 'NA' 

  # 风格
  if '风格' in attrs_name:
    info['风格'] = allattrs['风格']
  elif '中老年风格' in attrs_name:
    info['风格'] = allattrs['中老年风格']
  else:
    info['风格'] = 'NA' 

  #通勤
  if '通勤' in attrs_name:
    info['通勤'] = allattrs['通勤']
  else:
    info['通勤'] = 'NA' 

  if '裙长' in attrs_name:
    info['裙长'] = allattrs['裙长']
  else:
    info['裙长'] = 'NA' 

  if '裙型' in attrs_name:
    info['裙型'] = allattrs['裙型']
  else:
    info['裙型'] = 'NA' 

  if '腰型' in attrs_name:
    info['腰型'] = allattrs['腰型']
  else:
    info['腰型'] = 'NA' 

  # 颜色分类
  if '主要颜色' in attrs_name:
    info['主要颜色'] = allattrs['主要颜色']
  else:
    info['主要颜色'] = 'NA'
  if '颜色分类' in attrs_name:
    info['主要颜色'] = allattrs['颜色分类']
  else:
    info['主要颜色'] = 'NA' 

  #尺码
  if '尺码' in attrs_name:
    info['尺码'] = allattrs['尺码']
  else:
    info['尺码'] = 'NA' 

  if '组合形式' in attrs_name:
    info['组合形式'] = allattrs['组合形式']
  else:
    info['组合形式'] = 'NA' 

  if '裤长' in attrs_name:
    info['裤长'] = allattrs['裤长']
  else:
    info['裤长'] = 'NA' 

  return info 

import csv 

def main():
  # 提取 列
  with open('clothes_detai.csv', 'w', newline='', encoding='utf-8') as csvfile:
    # fieldnames = ['店铺ID','店铺名','链接','宝贝','原价','促销价','月销量','累计评价','材质成分','流行元素','袖长','年份季节','销售渠道类型','货号','服装版型','衣长','领型','袖型',
    #        '裙型','裙长','腰型','裤长','组合形式','品牌','图案','服装款式细节', '适用年龄','风格','通勤','主要颜色','尺码']
    fieldnames=[ 'Link','Brand','Title','Price','Sale price','Sales','Evaluations',
          'Component', 'Fashion elements','Sleeve','Seasons','Sales channels',
          'Number','Clothes_Style','Long','Collar type','Sleeve type',
          'Skirt type','Skirt length','Waist','Combining form','Outseam',
          'Design','Fashion pattern detail','Applicable age',
          'Style','Commuter','color','Size']
    # 'Shop','Data_id','Shop_id','Shop','Link','Data_id',
    writer = csv.DictWriter(csvfile, fieldnames = fieldnames)
    writer.writeheader() 

    # urls = ['//detail.tmall.com/item.htm?spm=a230r.1.14.1.ebb2eb2eGyUw1&id=549177691667&ns=1&abbucket=4',
        # '//item.taobao.com/item.htm?id=548443640333&ns=1&abbucket=0#detail'] 

    f = pd.read_csv('women_clothes_sales2.csv')
    urls = f['link'][0:100]
    # sh = f['shop_id'][0:3]
    # s = f['shop'][0:3]
    # for url in urls:
    #   print(url)
    # writer.writerow({'店铺ID':f['shop_id'],'店铺名':f['shop']})
    keys, values = [], []
    # for url in urls:
    for i in urls:
      url = 'http:' + i
      #  endswith 判断字符串是否以指定的字符串结尾
      if url.endswith('detail'):
        info = get_taobao_header(url) 

        res = requests.get(url)
        soup = BeautifulSoup(res.text, "html.parser")
        attrs = soup.select('.attributes-list li')  # 淘宝 class
      else:
        info = get_tianmao_header(url) 

        res = requests.get(url)
        soup = BeautifulSoup(res.text, "html.parser")
        attrs = soup.select('#J_AttrUL li') # 天猫 id
        # print('attrs=',attrs) 

      d = get_Details(attrs,info)
      print(d)
      # for j in f[shop_id]:
      #   d['店铺ID'] = j
      # for s in f['shop']:
      #   d['店铺名'] = s
      #'Shop':d['店铺名'],'Data_id':d['ID'],
      writer.writerow({'Link':url,'Brand':d['品牌'],'Title':d['宝贝'], 'Price':d['原价'], 'Sale price':d['促销价'], 'Sales':d['月销量'], 'Evaluations':d['累计评价'],
               'Component':d['材质成分'], 'Fashion elements':d['流行元素'], 'Sleeve':d['袖长'], 'Seasons':d['年份季节'], 'Sales channels':d['销售渠道类型'],
               'Number':d['货号'],'Clothes_Style':d['服装版型'],'Long':d['衣长'],'Collar type':d['领型'], 'Sleeve type':d['袖型'],
               'Skirt type':d['裙型'], 'Skirt length':d['裙长'], 'Waist':d['腰型'], 'Combining form':d['组合形式'], 'Outseam':d['裤长'],
               'Design':d['图案'], 'Fashion pattern detail':d['服装款式细节'], 'Applicable age':d['适用年龄'],
               'Style':d['风格'], 'Commuter':d['通勤'], 'color':d['主要颜色'], 'Size':d['尺码']}) 

if __name__=='__main__':
  main() 

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

您可能感兴趣的文章:

  • python爬虫爬取淘宝商品信息
  • Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
  • python爬虫获取多页天涯帖子
  • Python即时网络爬虫项目启动说明详解
  • 浅谈python爬虫使用Selenium模拟浏览器行为
  • python中数据爬虫requests库使用方法详解
  • python爬虫中get和post方法介绍以及cookie作用
  • 浅析Python3爬虫登录模拟
  • python爬虫爬取某站上海租房图片
  • Python爬虫实现百度图片自动下载
(0)

相关推荐

  • python爬虫获取多页天涯帖子

    今天练习了抓取多页天涯帖子,重点复习的知识包括 soup.find_all和soup.selcet两个筛选方式对应不同的参数: 希望将获取到的多个内容组合在一起返回的时候,要用'zip()'的代码来实现: 两层代码结构之间的关系如何构造: 这里有一个疑问:有时候一个标签可以有多个属性,不知道soup.find_all()能不能接受不止一个属性以缩小查找的范围. # 引入库和请求头文件 import requests from bs4 import BeautifulSoup headers =

  • python爬虫中get和post方法介绍以及cookie作用

    首先确定你要爬取的目标网站的表单提交方式,可以通过开发者工具看到.这里推荐使用chrome. 这里我用163邮箱为例 打开工具后再Network中,在Name选中想要了解的网站,右侧headers里的request method就是提交方式.status如果是200表示成功访问下面的有头信息,cookie是你登录之后产生的存储会话(session)信息的.第一次访问该网页需要提供用户名和密码,之后只需要在headers里提供cookie就可以登陆进去. 引入requests库,会提供get和po

  • 浅析Python3爬虫登录模拟

    使用Python爬虫登录系统之后,能够实现的操作就多了很多,下面大致介绍下如何使用Python模拟登录. 我们都知道,在前端的加密验证,只要把将加密环境还原出来,便能够很轻易地登录. 首先分析登录的步骤,通过审查元素得知 <input type="button" id="login" name="login" class="login" onclick="Logon();" value="登

  • python中数据爬虫requests库使用方法详解

    一.什么是Requests Requests 是Python语编写,基于urllib,采Apache2 Licensed开源协议的 HTTP 库.它urllib 更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 一句话--requests是python实现的简单易用的HTTP库 二.安装Requests库 进入命令行win+R执行 命令:pip install requests 项目导入:import requests 三.各种请求方式 直接上代码,不明白可以查看我的urllib的基

  • python爬虫爬取淘宝商品信息

    本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下 import requests as req import re def getHTMLText(url): try: r = req.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def parasePage(ilt, html): tr

  • python爬虫爬取某站上海租房图片

    对于一个net开发这爬虫真真的以前没有写过.这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup.python 版本:python3.6 ,IDE :pycharm.其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行. 第三方库首先安装 我是用的pycharm所以另为的脚本安装我这就不介绍了. 如上图打开默认设置选择Project Interprecter,双击pip或者点击加

  • 浅谈python爬虫使用Selenium模拟浏览器行为

    前几天有位微信读者问我一个爬虫的问题,就是在爬去百度贴吧首页的热门动态下面的图片的时候,爬取的图片总是爬取不完整,比首页看到的少.原因他也大概分析了下,就是后面的图片是动态加载的.他的问题就是这部分动态加载的图片该怎么爬取到. 分析 他的代码比较简单,主要有以下的步骤:使用BeautifulSoup库,打开百度贴吧的首页地址,再解析得到id为new_list标签底下的img标签,最后将img标签的图片保存下来. headers = { 'User-Agent':'Mozilla/5.0 (Win

  • Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

    1.引言 在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一部分实验了用xslt方式一次性提取静态网页内容并转换成xml格式.留下了一个问题:javascript管理的动态内容怎样提取?那么本文就回答这个问题. 2.提取动态内容的技术部件 在上一篇python使用xslt提取网页数据中,要提取的内容是直接从网页的source code里拿到的.但是一些Aja

  • Python爬虫实现百度图片自动下载

    制作爬虫的步骤 制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或者XPath表达式正式编写 python 爬虫代码 效果预览 运行效果如下: 存放图片的文件夹: 需求分析 我们的爬虫至少要实现两个功能:一是搜索图片,二是自动下载. 搜索图片:最容易想到的是爬百度图片的结果,我们就上百度图片看看: 随便搜索几个关键字,可以看到已经搜索出来很多张图片: 分析网页 我们点击右键,查看源代码: 打开源代码之后,发现一堆源代码比较难找出我们想要的资源. 这个时候,就

  • Python即时网络爬虫项目启动说明详解

    作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本很多东西,不得不花费很多时间和精力去移植和升级,至今还有一些隐藏在某处的代码埋着雷.我估计Python也避免不了这个问题(其实这种声音已经不少,比如Python 3 正在毁灭 Python). 但是,我还是启动了这个Python即时网络爬虫项目.我用C++.Java和Javascript编写爬虫相关

随机推荐