python3中编码获取网页的实例方法

2025-02-08 00:14:06

学了python后，之前一些我们常用的方法，也可以换一种思路用python中的知识来解决。相信操作出来后，能收获一大批小粉丝们。就像我们没学习编程之前，看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决，大家可以自行体会一下两者的不同。

1. encoding和apparent_encoding

import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值，有的网站没有charset字段，就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)

2. 处理方案

直接用r.encoding = ‘xxx'

re.encoding='utf-8'

3. requests的text() 跟 content() 有什么区别

re.text返回的是处理过的Unicode型的数据，

而使用re.content返回的是bytes型的原始数据。

4. 爬虫拿到的HTML和浏览器中的源码不相同时

通过下载源码对比

import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

到此这篇关于python3中编码获取网页的实例方法的文章就介绍到这了,更多相关python3中编码如何获取网页内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

赞 (0)

python3中编码获取网页的实例方法

学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决.相信操作出来后,能收获一大批小粉丝们.就像我们没学习编程之前,看到那种大神都是可望而不可即.今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同. 1. encoding和apparent_encoding import scrapy url="https://www.xxx.net/html/gndy/dyzz/index.html" re=reque
Python3中编码与解码之Unicode与bytes的讲解

今天玩Python爬虫,下载一个网页,然后把所有内容写入一个txt文件中,出现错误: TypeError: write() argument must be str, not bytes AttributeError: 'URLError' object has no attribute 'code' UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' inposition 5747: illegal multibyte s
使用C#获取网页HTML源码的例子

最近在做一个项目,其中一个功能是根据一个URL地址,获取到网页的源代码.在ASP.NET(C#)中,获取网页源代码貌似有很多种方法,我随便搞了一个简单的WebClient,非常简单容易.但后面一个非常恼火的问题出来了,那就是中文的乱码. 通过仔细研究,中文的网页不外乎GB2312和UTF-8这两种编码.于是有了下面这段代码: 复制代码代码如下: /// <summary> /// 根据网址的URL,获取源代码HTML /// </summary>
C#基于正则表达式实现获取网页中所有信息的网页抓取类实例

本文实例讲述了C#基于正则表达式实现获取网页中所有信息的网页抓取类.分享给大家供大家参考,具体如下: 类的代码: using System; using System.Data; using System.Configuration; using System.Net; using System.IO; using System.Text; using System.Collections.Generic; using System.Text.RegularExpressions; using
python 获取网页编码方式实现代码

python 获取网页编码方式实现代码 <span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"> </span><span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">
JavaScript获取网页中第一个图片id的方法

本文实例讲述了JavaScript获取网页中第一个图片id的方法.分享给大家供大家参考.具体如下: 下面的代码通过document.images获取网页中的所有图片,然后获取第一个图片的id属性 <!DOCTYPE html> <html> <body> <img id="klematis lilac" border="0" src="klematis.jpg" width="148"
php获取网页中图片、DIV内容的简单方法

1.获取网页中所有的图片: 复制代码代码如下: <?php //取得指定位址的內容,并储存至 $text $text=file_get_contents('http://www.jb51.net/'); //取得所有img标签,并储存至二维数组 $match 中 preg_match_all('/<img[^>]*>/i', $text, $match); //打印出match print_r($match); ?> 2.获取网页中的第一
PHP批量获取网页中所有固定种子链接的方法

本文实例讲述了PHP批量获取网页中所有固定种子链接的方法.分享给大家供大家参考,具体如下: 经常的下载链接比较多的时候,就像一次性将所有的链接添加到迅雷或者电炉,但是没有在这种选项,怎么办,咱是PHPer啊,这事儿难不到咱且看代码,当然要换成你的,要根据具体情况来做修改. <?php header("content-type:text/html;charset=utf8"); $str = file_get_contents('./ShowFile.asp'); $str1 =
使用jquery获取网页中图片高度的两种方法

使用jquery获取网页中图片的高度其实很简单,有两种常用的方法都可以打到我们的目的复制代码代码如下: $("img").whith();(返回纯数字) $("img").css("width");(返回字符串:数字+"px") 但是有时候会遇到返回0的情况,上面方法返回值竟然是0或者0px,很让人诧异方法一在很早之前,我使用的解决方法,这也是我的师傅告诉我的解决方法:在你需要获取到的图片的<img>标签上
JavaScript获取网页中第一个链接ID的方法

本文实例讲述了JavaScript获取网页中第一个链接ID的方法.分享给大家供大家参考.具体如下: 下面的JS代码通过document.links获得网页中的所有超级链接数组,然后获得第一个链接的ID属性 <!DOCTYPE html> <html> <body> <h1>sharejs.com</h1> <img src ="planets.gif" width="145" height="