python抓取豆瓣图片并自动保存示例学习
环境Python 2.7.6,BS4,在powershell或命令行均可运行。请确保安装了BS模块
# -*- coding:utf8 -*-
# 2013.12.36 19:41 wnlo-c209
# 抓取dbmei.com的图片。
from bs4 import BeautifulSoup
import os, sys, urllib2
# 创建文件夹,昨天刚学会
path = os.getcwd() # 获取此脚本所在目录
new_path = os.path.join(path,u'豆瓣妹子')
if not os.path.isdir(new_path):
os.mkdir(new_path)
def page_loop(page=0):
url = 'http://www.dbmeizi.com/?p=%s' % page
content = urllib2.urlopen(url)
soup = BeautifulSoup(content)
my_girl = soup.find_all('img')
# 加入结束检测,写的不好....
if my_girl ==[]:
print u'已经全部抓取完毕'
sys.exit(0)
print u'开始抓取'
for girl in my_girl:
link = girl.get('src')
flink = 'http://www.dbmeizi.com/' + link
print flink
content2 = urllib2.urlopen(flink).read()
with open(u'豆瓣妹子'+'/'+flink[-11:],'wb') as code: #在OSC上现学的
code.write(content2)
page = int(page) + 1
print u'开始抓取下一页'
print 'the %s page' % page
page_loop(page)
page_loop().
相关推荐
-
Python实现豆瓣图片下载的方法
本文实例讲述了Python实现豆瓣图片下载的方法.分享给大家供大家参考.具体分析如下: 1 用 tk 封装一下 2 用户可以自己输入图片url download_douban_album # -*-coding:UTF-8 -*- import re import urllib def count_percent(a, b, c): per = 100.0 * a * b / c if per > 100: per = 100 print '%.2f%%' % per def get_url()
-
python正则匹配抓取豆瓣电影链接和评论代码分享
复制代码 代码如下: import urllib.requestimport reimport time def movie(movieTag): tagUrl=urllib.request.urlopen(url) tagUrl_read = tagUrl.read().decode('utf-8') return tagUrl_read def subject(tagUrl_read): ''' 这里还存在问题: ①这只针对单独的一页进行排序,而没有
-
python获取豆瓣电影简介代码分享
复制代码 代码如下: #!/usr/bin/env python#coding:utf-8import re,sysimport urllibfrom bs4 import BeautifulSoupglobal r_url def hq_url(): so_url = "http://movie.douban.com/subject_search?search_text=" data = urllib.urlopen(so_url+gjz).read() r = r
-
python登录豆瓣并发帖的方法
本文实例讲述了python登录豆瓣并发帖的方法.分享给大家供大家参考.具体如下: 这里涉及urllib.urllib2及cookielib常用方法的使用 登录豆瓣,由于有验证码,采取的办法是将验证码图片下载到同目录下,查看图片后输入验证码即可登录.发帖 帖子内容写死在代码中了 # -- coding:gbk -- import sys, time, os, re import urllib, urllib2, cookielib loginurl = 'https://www.douban.co
-
python使用urllib模块开发的多线程豆瓣小站mp3下载器
复制代码 代码如下: #! /usr/bin/python2.7# -- coding:utf-8 -- import os, urllib,urllib2, thread,threadingimport re #匹配音乐urlreg=re.compile('{"name":"(.+?)".+?"rawUrl":"(.+?)",.+?}', re.I) class downloader(threading.Thread):
-
编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法
抓取豆瓣电影TOP100 一.分析豆瓣top页面,构建程序结构 1.首先打开网页http://movie.douban.com/top250?start,也就是top页面 然后试着点击到top100的页面,注意带top100的链接依次为 http://movie.douban.com/top250?start=0 http://movie.douban.com/top250?start=25 http://movie.douban.com/top250?start=50 http://movie
-
python抓取豆瓣图片并自动保存示例学习
环境Python 2.7.6,BS4,在powershell或命令行均可运行.请确保安装了BS模块 复制代码 代码如下: # -*- coding:utf8 -*-# 2013.12.36 19:41 wnlo-c209# 抓取dbmei.com的图片. from bs4 import BeautifulSoupimport os, sys, urllib2 # 创建文件夹,昨天刚学会path = os.getcwd() # 获取此脚本所在目录new_path = os.pat
-
python抓取网页图片并放到指定文件夹
python抓取网站图片并放到指定文件夹 复制代码 代码如下: # -*- coding=utf-8 -*-import urllib2import urllibimport socketimport osimport redef Docment(): print u'把文件存在E:\Python\图(请输入数字或字母)' h=raw_input() path=u'E:\Python\图'+str(h) if not os.path.exists(path):
-
使用Python抓取豆瓣影评数据的方法
抓取豆瓣影评评分 正常的抓取 分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=20&sort=new_score&status=P&percent_type= 里面有用的也就是start和limit参数,我尝试过修改limit参数,但是没有效果,可以认为是默认的 start参数是用来设置从第几条数据开始查询的 设计查询列表,发现页面中有url中的查询部分,且指向下一个页面
-
python爬取豆瓣电影排行榜(requests)的示例代码
''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: Python 3.7.6 官网地址:https://www.python.org/ 安装地址:https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe PyCharm 2020.2.2
-
python抓取网页图片示例(python爬虫)
复制代码 代码如下: #-*- encoding: utf-8 -*-'''Created on 2014-4-24 @author: Leon Wong''' import urllib2import urllibimport reimport timeimport osimport uuid #获取二级页面urldef findUrl2(html): re1 = r'http://tuchong.com/\d+/\d+/|http://\w+(?<!photos).tuchong.co
-
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
本文实例为大家分享了Android九宫格图片展示的具体代码,供大家参考,具体内容如下 #!/user/bin/python # -*- coding: gbk -*- #Spider.py import urllib2 import httplib import StringIO import gzip import re import chardet import sys import os import datetime from xml.dom.minidom import Documen
-
python抓取文件夹的所有文件
本文实例为大家分享了python抓取文件夹的所有文件的具体代码,供大家参考,具体内容如下 #!/user/bin/python # -*- coding:utf8 -*- import Basic import os ##################################################### ######## Input #### folder = "D:\\安装包" folder = folder.encode("gbk") ###
-
如何使用Python抓取网页tag操作
这篇文章主要介绍了如何使用Python抓取网页tag操作,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1. 获取操作tag 获取操作tag的接种方式: soup.find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs),返回符合条件的所有标签,查找不到则返回[],可以传递标签名,标签属性,关键字参数,函数,True等 soup.find(nam
-
python抓取网页中图片并保存到本地
在上篇文章给大家分享PHP源码批量抓取远程网页图片并保存到本地的实现方法,感兴趣的朋友可以点击了解详情. #-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file_extension(file): return os.path.splitext(file)[1] '''創建文件目录,并返回该目录''' def mkdir(path): # 去除左右两边的
-
Python使用爬虫抓取美女图片并保存到本地的方法【测试可用】
本文实例讲述了Python使用爬虫抓取美女图片并保存到本地的方法.分享给大家供大家参考,具体如下: 图片资源来自于www.qiubaichengren.com 代码基于Python 3.5.2 友情提醒:血气方刚的骚年.请 谨慎阅图! 谨慎阅图!! 谨慎阅图!!! code: #!/usr/bin/env python # -*- coding: utf-8 -*- import os import urllib import urllib.request import re from urll
随机推荐
- .NetCore获取Json和Xml格式的配置信息
- 用vbs判断系统补丁的脚本
- 跟着Jquery API学Jquery之一 选择器
- 微信小程序实现图片预加载组件
- React Native中导航组件react-navigation跨tab路由处理详解
- 详解Spring mvc的web.xml配置说明
- asp.net 将设有过期策略的项添加到缓存中
- asp.net 使用Silverlight操作ASPNETDB数据库
- 正则表达式不包含属性
- 关于内容的分离,正则抽出图片(一定要加精哦)
- mysql select语句操作实例
- PHP中include与require使用方法区别详解
- android电话窃听器(示例代码)
- java实现百度坐标的摩卡托坐标与火星坐标转换的示例
- Android编程实现监控apk安装,卸载,替换的方法
- 详解Android中的MVP架构分解和实现
- 用无线宽带路由器实现电脑上网互访
- python opencv实现图像边缘检测
- Apache虚拟目录简单知识汇总
- java文本处理之计算文本句子数