python requests抓取one推送文字和图片代码实例

2025-04-03 22:52:50

这篇文章主要介绍了python requests抓取one推送文字和图片代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

requests是Python中一个第三方库，基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。接下来将记录一下requests的使用：

from bs4 import BeautifulSoup
from lxml import html
import xml
import requests

#下载图片函数
def download_img(url,name):
  """"
  下载指定url的图片
  url：图片的url；
  name:保存图片的名字
  """
  try:
    respone = requests.get(url)
    f_img = respone.content
    path = r'C:\Users\86131\Desktop\itchat\send_file\images\\%s.jpg'%(name)
    with open(path, "wb")as f:
        f.write(f_img)
  except Exception as e:
    print("---------地址出错------------")

url_list = []

f = requests.get("http://wufazhuce.com/")

# #打印网页内容
# print(f.content.decode())

soup = BeautifulSoup(f.content,"lxml")

try:
  first_div = soup.find("div",attrs={'id':'main-container'}).find('div',attrs={'class':'carousel-inner'})
  a_all = first_div.find_all('a')

  for i in a_all:
    url_list.append(i.attrs['href'])

except Exception as e:
    print("---------出错------------")

#得到one的首页推荐页面
f_1 = requests.get(url_list[0])

#打印网页内容
# print(f_1.content.decode())

soup_1 = BeautifulSoup(f_1.content,"lxml")

try:
  second_div = soup_1.find("div",attrs={'id':'main-container'}).find('div',attrs={'class':'one-cita-wrapper'})
  third_div = soup_1.find("div",attrs={'id':'main-container'}).find('div',attrs={'class':'one-imagen'})

  #获得时期值
  now_month = second_div.find('p',attrs={'class':'may'}).text
  now_one_day = second_div.find('p',attrs={'class':'dom'}).text

  #获得图片的url
  img_url = third_div.find('img').attrs['src']

  #获得一段话并去除开头的空格
  one_text = second_div.find("div",attrs={'class':'one-cita'}).text.strip()

  #将获得日期拼接
  now_day = now_one_day +' '+ now_month

  #调用函数下载图片

  download_img(img_url, now_day)

except Exception as e:
    print("---------出错------------")

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

python抓取多种类型的页面方法实例

与抓取预定义好的页面集合不同,抓取一个网站的所有内链会带来一个挑战,即你不知道会获得什么.好在有几种基本的方法可以识别页面类型. 通过URL 一个网站中所有的博客文章可能都会包含一个 URL(例如 http://example.com/blog/title-of-post). 通过网站中存在或者缺失的特定字段如果一个页面包含日期,但是不包含作者名字,那你可以将其归类为新闻稿.如果它有标题.主图片.价格,但是没有主要内容,那么它可能是一个产品页面. 通过页面中出现的特定标签识别页面即使不
Python 50行爬虫抓取并处理图灵书目过程详解

前言使用 requests进行爬取.BeautifulSoup进行数据提取. 主要分成两步: 第一步是解析图书列表页,并解析出里面的图书详情页链接. 第二步是解析图书详情页,提取出感兴趣的内容,本例中根据不同的数据情况,采用了不同的提取方法,总的感觉就是BeautifulSoup用起来很方便以下是几个典型HTML内容提取的Python代码片段 1.提取详情页链接列表页中的详情页链接片段 <h4 class="name"> <a href="/book/
Python3简单爬虫抓取网页图片代码实例

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正. import urllib.request import re import os import urllib #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlope
python实现爬虫抓取小说功能示例【抓取金庸小说】

本文实例讲述了python实现爬虫抓取小说功能.分享给大家供大家参考,具体如下: # -*- coding: utf-8 -*- from bs4 import BeautifulSoup from urllib import request import re import os,time #访问url,返回html页面 def get_html(url): req = request.Request(url) req.add_header('User-Agent','Mozilla/5.0'
python通过链接抓取网站详解

在本篇文章里,你将会学习把这些基本方法融合到一个更灵活的网站爬虫中,该爬虫可以跟踪任意遵循特定 URL 模式的链接. 这种爬虫非常适用于从一个网站抓取所有数据的项目,而不适用于从特定搜索结果或页面列表抓取数据的项目.它还非常适用于网站页面组织得很糟糕或者非常分散的情况. 这些类型的爬虫并不需要像上一节通过搜索页面进行抓取中采用的定位链接的结构化方法,因此在 Website 对象中不需要包含描述搜索页面的属性.但是由于爬虫并不知道待寻找的链接的位置,所以你需要一些规则来告诉它选择哪种页
python requests抓取one推送文字和图片代码实例

这篇文章主要介绍了python requests抓取one推送文字和图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 requests是Python中一个第三方库,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求.接下来将记录一下requests的使用: from bs4 import BeautifulSoup f
用Python程序抓取网页的HTML信息的一个小实例

抓取网页数据的思路有好多种,一般有:直接代码请求http.模拟浏览器请求数据(通常需要登录验证).控制浏览器实现数据抓取等.这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据将ittf网站上这个页面上所有这些选手的超链接保存下来. 数据请求真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定: doc = requests.get(url).text 解析html获得数据以beautifulsoup为例,包含获取标签.链接,以及根据html层次结
Python实现抓取HTML网页并以PDF文件形式保存的方法

本文实例讲述了Python实现抓取HTML网页并以PDF文件形式保存的方法.分享给大家供大家参考,具体如下: 一.前言今天介绍将HTML网页抓取下来,然后以PDF保存,废话不多说直接进入教程. 今天的例子以廖雪峰老师的Python教程网站为例:http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 二.准备工作 1. PyPDF2的安装使用(用来合并PDF): PyPDF2版本:1.2
python数据抓取分析的示例代码（python + mongodb）

本文介绍了Python数据抓取分析,分享给大家,具体如下: 编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: headers = { ..... } r = requests.get(url,headers,timeout=30) html = r.content soup = BeautifulSoup(html,"lxml") url = soup.find_all(正则表达式
Python如何抓取天猫商品详细信息及交易记录

本文实例为大家分享了Python抓取天猫商品详细信息及交易记录的具体代码,供大家参考,具体内容如下一.搭建Python环境本帖使用的是Python 2.7 涉及到的模块:spynner, scrapy, bs4, pymmssql 二.要获取的天猫数据三.数据抓取流程四.源代码 #coding:utf-8 import spynner from scrapy.selector import Selector from bs4 import BeautifulSoup import ran
Python爬虫实现抓取京东店铺信息及下载图片功能示例

本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能.分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import BeautifulSoup import requests url = 'https://list.tmall.com/search_product.htm?q=%CB%AE%BA%F8+%C9%D5%CB%AE&type=p&vmarket=&spm=875.7931836%2FA.a2227oh.d100&from=mal
python给微信好友定时推送消息的示例

如下所示: from __future__ import unicode_literals from threading import Timer from wxpy import * import requests #bot = Bot() #bot = Bot(console_qr=2,cache_path="botoo.pkl")#这里的二维码是用像素的形式打印出来!,如果你在win环境上运行,替换为 bot=Bot() bot = Bot(cache_path=True) de
python如何爬取网页中的文字

用Python进行爬取网页文字的代码: #!/usr/bin/python # -*- coding: UTF-8 -*- import requests import re # 下载一个网页 url = 'https://www.biquge.tw/75_75273/3900155.html' # 模拟浏览器发送http请求 response = requests.get(url) # 编码方式 response.encoding='utf-8' # 目标小说主页的网页源码 html = re
使用python实现抓取中国银行外汇牌价首页数据实现

利用requests.BeautifulSoup.xlwings库抓取中国银行外汇牌价首页数据 1. 利用requests.BeautifulSoup.xlwings库抓取中国银行外汇牌价首页数据. (1)中国银行外汇牌价网址如下. https://www.bankofchina.com/sourcedb/whpj/ (2)调用requests模块中get方法访问上述网址,获取Response 对象. url = "https://www.bankofchina.com/sourcedb/whp
python爬虫抓取时常见的小问题总结

目录 01 无法正常显示中文? 解决方法 02 加密问题 03 获取不到网页的全部代码? 04 点击下一页时网页网页不变 05 文本节点问题 06 如何快速找到提取数据? 07 获取标签中的数据 08 去除指定内容 09 转化为字符串类型 10 滥用遍历文档树 11 数据库保存问题 12 爬虫采集遇到的墙问题逃避IP识别变换请求内容降低访问频率慢速攻击判别 13 验证码问题正向破解逆向破解前言: 现在写爬虫,入门已经不是一件门槛很高的事情了,网上教程一大把,但很多爬虫新手在爬取数据

python requests抓取one推送文字和图片代码实例

相关推荐

随机推荐