python 爬取壁纸网站的示例

2025-02-07 04:12:28

本次爬虫用到的网址是：

http://www.netbian.com/index.htm: 彼岸桌面.里面有很多的好看壁纸，而且都是可以下载高清无损的，还比较不错，所以我就拿这个网站练练手。

作为一个初学者，刚开始的时候，无论的代码的质量如何，总之代码只要能够被正确完整的运行那就很能够让自己开心的，如同我们的游戏一样，能在短时间内得到正向的反馈，我们就会更有兴趣去玩。

学习也是如此，只要我们能够在短期内得到学习带来的反馈，那么我们的对于学习的欲望也是强烈的。

作为一个菜鸡，能够完整的完整此次爬虫程序的编写，那便是一个最大的收货，但其实我在此次过程中的收获远不止此。

好的代码其实应该具有以下特性

能够满足最关键的需求
容易理解
有充分的注释
使用规范的命名
没有明显的安全问题
经过充分的测试

就以充分的测试为例，经常写代码的就应该知道，尽管多数时候你的代码没有BUG,但那仅仅说明只是大多数情况下是稳定的，但是在某些条件下就会出错（达到出错条件，存在逻辑问题的时候等）。这是肯定的。至于什么原因，不同的代码有不同的原因。如果代码程序都是一次就能完善的，那么我们使用的软件的软件就不会经常更新了。其他其中的道理就不一一道说了，
久而自知

好的代码一般具有的5大特性

1.便于维护
2.可复用
3.可扩展
4.强灵活性
5.健壮性

经过我的代码运行我发现时间复杂度比较大，因此这是我将要改进的地方，但也不止于此。也有很多利用得不合理的地方，至于存在的不足的地方就待我慢慢提升改进吧！

路过的大佬欢迎留下您宝贵的代码修改意见，

完整代码如下

import os
import bs4
import re
import time
import requests
from bs4 import BeautifulSoup

def getHTMLText(url, headers):
  """向目标服务器发起请求并返回响应"""
  try:
    r = requests.get(url=url, headers=headers)
    r.encoding = r.apparent_encoding
    soup = BeautifulSoup(r.text, "html.parser")
    return soup
  except:
    return ""

def CreateFolder():
  """创建存储数据文件夹"""
  flag = True
  while flag == 1:
    file = input("请输入保存数据文件夹的名称：")
    if not os.path.exists(file):
      os.mkdir(file)
      flag = False
    else:
      print('该文件已存在，请重新输入')
      flag = True

  # os.path.abspath(file) 获取文件夹的绝对路径
  path = os.path.abspath(file) + "\\"
  return path

def fillUnivList(ulist, soup):
  """获取每一张图片的原图页面"""
  # [0]使得获得的ul是 <class 'bs4.BeautifulSoup'> 类型
  div = soup.find_all('div', 'list')[0]
  for a in div('a'):
    if isinstance(a, bs4.element.Tag):
      hr = a.attrs['href']
      href = re.findall(r'/desk/[1-9]\d{4}.htm', hr)
      if bool(href) == True:
        ulist.append(href[0])

  return ulist

def DownloadPicture(left_url,list,path):
  for right in list:
    url = left_url + right
    r = requests.get(url=url, timeout=10)
    r.encoding = r.apparent_encoding
    soup = BeautifulSoup(r.text,"html.parser")
    tag = soup.find_all("p")
    # 获取img标签的alt属性，给保存图片命名
    name = tag[0].a.img.attrs['alt']
    img_name = name + ".jpg"
    # 获取图片的信息
    img_src = tag[0].a.img.attrs['src']
    try:
      img_data = requests.get(url=img_src)
    except:
      continue

    img_path = path + img_name
    with open(img_path,'wb') as fp:
      fp.write(img_data.content)
    print(img_name, "  ******下载完成！")

def PageNumurl(urls):
  num = int(input("请输入爬取所到的页码数："))
  for i in range(2,num+1):
    u = "http://www.netbian.com/index_" + str(i) + ".htm"
    urls.append(u)

  return urls

if __name__ == "__main__":
  uinfo = []
  left_url = "http://www.netbian.com"
  urls = ["http://www.netbian.com/index.htm"]
  headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
  }
  start = time.time()
  # 1.创建保存数据的文件夹
  path = CreateFolder()
  # 2. 确定要爬取的页面数并返回每一页的链接
  PageNumurl(urls)
  n = int(input("访问的起始页面："))
  for i in urls[n-1:]:
    # 3.获取每一个页面的首页数据文本
    soup = getHTMLText(i, headers)
    # 4.访问原图所在页链接并返回图片的链接
    page_list = fillUnivList(uinfo, soup)
    # 5.下载原图
    DownloadPicture(left_url, page_list, path)

  print("全部下载完成！", "共" + str(len(os.listdir(path))) + "张图片")
  end = time.time()
  print("共耗时" + str(end-start) + "秒")

运行

部分展示结果如下：

以上就是python 爬取壁纸网站的示例的详细内容，更多关于python 爬取壁纸网站的资料请关注我们其它相关文章！

详解用python实现爬取CSDN热门评论URL并存入redis

一.配置webdriver 下载谷歌浏览器驱动,并配置好 import time import random from PIL import Image from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import exp
python爬取晋江文学城小说评论(情绪分析)

1. 收集数据 1.1 爬取晋江文学城收藏排行榜前50页的小说信息获取收藏榜前50页的小说列表,第一页网址为 'http://www.jjwxc.net/bookbase.php?fw0=0&fbsj=0&ycx0=0&xx2=2&mainview0=0&sd0=0&lx0=0&fg0=0&sortType=0&isfinish=0&collectiontypes=ors&searchkeywords=&pa
利用Python网络爬虫爬取各大音乐评论的代码

python爬虫--爬取网易云音乐评论方1:使用selenium模块,简单粗暴.但是虽然方便但是缺点也是很明显,运行慢等等等. 方2:常规思路:直接去请求服务器 1.简易看出评论是动态加载的,一定是ajax方式. 2.通过网络抓包,可以找出评论请求的的URL 得到请求的URL 3.去查看post请求所上传的数据显然是经过加密的,现在就需要按着网易的思路去解读加密过程,然后进行模拟加密. 4.首先去查看请求是经过那些js到达服务器的 5.设置断点:依次对所发送的内容进行观察,找到评论对应的UR
python爬虫之教你如何爬取地理数据

一.shapely模块 1.shapely shapely是python中开源的针对空间几何进行处理的模块,支持点.线.面等基本几何对象类型以及相关空间操作. 2.point→Point类 curve→LineString和LinearRing类: surface→Polygon类集合方法分别对应MultiPoint.MultiLineString.MultiPolygon 3.导入所需模块 # 导入所需模块 from shapely import geometry as geo from s
Python爬虫之爬取2020女团选秀数据

一.先看结果 1.1创造营2020撑腰榜前三甲创造营2020撑腰榜前三名分别是希林娜依·高.陈卓璇 .郑乃馨 >>>df1[df1['排名']<=3 ][['排名','姓名','身高','体重','生日','出生地']] 排名姓名身高体重生日出生地 0 1.0 希林娜依·高 NaN NaN 1998年07月31日新疆 1 2.0 陈卓璇 168.0 42.0 1997年08月13日贵州 2 3.0 郑乃馨 NaN NaN 1997年06月25日泰国 1.2青春有
Python爬虫之教你利用Scrapy爬取图片

Scrapy下载图片项目介绍 Scrapy是一个适用爬取网站数据.提取结构性数据的应用程序框架,它可以通过定制化的修改来满足不同的爬虫需求. 使用Scrapy下载图片项目创建首先在终端创建项目 # win4000为项目名 $ scrapy startproject win4000 该命令将创建下述项目目录. 项目预览查看项目目录 win4000 win4000 spiders __init__.py __init__.py items.py middlewares.py pipelines
用python爬虫爬取CSDN博主信息

一.项目介绍爬取网址:CSDN首页的Python.Java.前端.架构以及数据库栏目.简单分析其各自的URL不难发现,都是https://www.csdn.net/nav/+栏目名样式,这样我们就可以爬取不同栏目了. 以Python目录页为例,如下图所示: 爬取内容:每篇文章的博主信息,如博主姓名.码龄.原创数.访问量.粉丝数.获赞数.评论数.收藏数 (考虑到周排名.总排名.积分都是根据上述信息综合得到的,对后续分析没实质性的作用,这里暂不爬取.) 不想看代码的朋友可直接跳到第三部分~ 二.S
python爬取各省降水量及可视化详解

在具体数据的选取上,我爬取的是各省份降水量实时数据话不多说,开始实操正文 1.爬取数据使用python爬虫,爬取中国天气网各省份24时整点气象数据由于降水量为动态数据,以js形式进行存储,故采用selenium方法经xpath爬取数据-ps:在进行数据爬取时,最初使用的方法是漂亮汤法(beautifulsoup)法,但当输出爬取的内容(<class = split>时,却空空如也.在源代码界面Ctrl+Shift+F搜索后也无法找到降水量,后查询得知此为动态数据,无法用该方法进行爬取
Python爬取科目四考试题库的方法实现

1.环境 PyCharm Python 3.6 pip安装的依赖包包括:requests 2.25.0.urllib3 1.26.2.docx 0.2.4.python-docx 0.8.10.lxml 4.6.2 谷歌浏览器 2.目标网站及请求分析驾驶员考试网站从上图中,可以看到科目四共有1487道题目,为了将所有的题目汇总到一个Word文档中,需要获取到每道题的文本和图片. 首先,打开谷歌浏览器访问上述网站,键盘按F12,点击Network,点击左侧题目中的向右箭头,一直
python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析

一.环境准备 python3.8.3 pycharm 项目所需第三方包 pip install scrapy fake-useragent requests selenium virtualenv -i https://pypi.douban.com/simple 1.1 创建虚拟环境切换到指定目录创建 virtualenv .venv 创建完记得激活虚拟环境 1.2 创建项目 scrapy startproject 项目名称 1.3 使用pycharm打开项目,将创建的虚拟环境配置到项目中来
Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤

思路:使用Python爬虫对腾讯疫情网站世界疫情数据进行爬取,封装成一个函数返回一个字典数据格式的对象,写另一个方法调用该函数接收返回值,和数据库取得连接后把数据存储到mysql数据库. 一.mysql数据库建表 CREATE TABLE world( id INT(11) NOT NULL AUTO_INCREMENT, dt DATETIME NOT NULL COMMENT '日期', c_name VARCHAR(35) DEFAULT NULL COMMENT '国家'
Python爬虫之爬取某文库文档数据

一.基本开发环境 Python 3.6 Pycharm 二.相关模块的使用 import os import requests import time import re import json from docx import Document from docx.shared import Cm 安装Python并添加到环境变量,pip安装需要的相关模块即可. 三.目标网页分析网站的文档内容,都是以图片形式存在的.它有自己的数据接口接口链接: https://openapi.book11

python 爬取壁纸网站的示例

完整代码如下

运行

部分展示结果如下：

相关推荐

随机推荐