python抓取百度首页的方法
本文实例讲述了python抓取百度首页的方法。分享给大家供大家参考。具体实现方法如下:
import urllib def downURL(url,filename): try: fp=urllib.urlopen(url) except: print('download error') return 0 op=open(filename,'wb') while 1: s=fp.read() if not s: break op.write(s) fp.close() op.close() return 1 downURL("http://www.baidu.com","C:\\url.txt")
希望本文所述对大家的Python程序设计有所帮助。
相关推荐
-
python实现中文分词FMM算法实例
本文实例讲述了python实现中文分词FMM算法.分享给大家供大家参考.具体分析如下: FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去.假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束. import re def PreProcess(sentence,edcode="utf-8"): sentence = sentence.decode(edcode) sentence=re.s
-
python3抓取中文网页的方法
本文实例讲述了python3抓取中文网页的方法.分享给大家供大家参考.具体如下: #! /usr/bin/python3.2 import sys import urllib.request req = urllib.request.Request('http://www.baidu.com') response = urllib.request.urlopen(req) the_page = response.read() type = sys.getfilesystemencoding()
-
python抓取最新博客内容并生成Rss
osc的rss不是全文输出的,不开心,所以就有了python抓取osc最新博客生成Rss # -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import datetime import time import PyRSS2Gen from email.Utils import formatdate import re import sys import os reload(sys) sys.setdefaul
-
Python实现简单截取中文字符串的方法
本文实例讲述了Python实现简单截取中文字符串的方法.分享给大家供大家参考.具体如下: web应用难免会截取字符串的需求,Python中截取英文很容易: >>> s = 'abce' >>> s[0:3] 'abc' 但是截取utf-8的中文机会截取一半导致一些不是乱码的乱码.其实utf8截取很简单,这里记下来作为备忘 #-*- coding:utf8 -*- s = u'中文截取' s.decode('utf8')[0:3].encode('utf8') # 结果u
-
Python实现登录人人网并抓取新鲜事的方法
本文实例讲述了Python实现登录人人网并抓取新鲜事的方法.分享给大家供大家参考.具体如下: 这里演示了Python登录人人网并抓取新鲜事的方法(抓取后的排版不太美观~~) from sgmllib import SGMLParser import sys,urllib2,urllib,cookielib class spider(SGMLParser): def __init__(self,email,password): SGMLParser.__init__(self) self.h3=F
-
Python抓取淘宝下拉框关键词的方法
本文实例讲述了Python抓取淘宝下拉框关键词的方法.分享给大家供大家参考.具体如下: import urllib2,re for key in open('key.txt'): do = "http://suggest.taobao.com/sug?code=utf-8&q=%s" % key.rstrip() _re = re.findall('\[\"(.*?)\",\".*?\"\]',urllib2.urlopen(do).re
-
Python使用scrapy抓取网站sitemap信息的方法
本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法.分享给大家供大家参考.具体如下: import re from scrapy.spider import BaseSpider from scrapy import log from scrapy.utils.response import body_or_str from scrapy.http import Request from scrapy.selector import HtmlXPathSelector c
-
Python中文编码那些事
首先,要明白encode()和decode()的区别 encode()的作用是将Unicode编码的字符串转换为其他编码格式. 例如: st1.encode("utf-8") 这句话的作用是将Unicode编码的st1编码为utf-8编码的字符串 decode()的作用是把其他编码格式的字符串转换成Unicode编码的字符串. 例如: st2.decode("utf-8") 这句话的作用是将utf-8编码的字符串st2解码为Unicode编码的字符串 第二,除Un
-
使用Python程序抓取新浪在国内的所有IP的教程
数据分析,特别是网站分析中需要对访问者的IP进行分析,分析IP中主要是区分来访者的省份+城市+行政区数据,考虑到目前纯真IP数据库并没有把这些数据做很好的区分,于是寻找了另外一个可行的方案(当然不是花钱买哈).解决方案就是抓取新浪的IP数据. 新浪的IP数据接口为: http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85 返回的数据为: 复制代码 代码如下: {"ret"
-
Python抓取百度查询结果的方法
本文实例讲述了Python抓取百度查询结果的方法.分享给大家供大家参考.具体实现方法如下: #win python 2.7.x import re,sys,urllib,codecs xh = urllib.urlopen("http://www.baidu.com/s?q1=123&rn=100").read().decode('utf-8') rc = re.compile(r'<td class=f><h3 class="t">
随机推荐
- vbscript获取文件的创建时间、最后修改时间和最后访问时间的方法
- 在VMware下快速克隆多个Linux环境的方法教程
- ios微信浏览器返回不刷新问题完美解决方法
- javascript 实现字符串反转的三种方法
- js获取客户端外网ip的简单实例
- 详解基于java的Socket聊天程序——初始设计(附demo)
- Javascript中实现String.startsWith和endsWith方法
- Jquery实现Div上下移动示例
- 动态创建的表格单元格中的事件实现代码
- javascript中的作用域和上下文使用简要概述
- JavaScript函数获取事件源的小例子
- php.ini中date.timezone设置详解
- IIS安全设置图文教程
- C#保存图片到数据库并读取显示图片的方法
- PHP从二维数组得到N层分类树的实现代码
- C#实现字体旋转的方法
- SpringBoot使用编程方式配置DataSource的方法
- C#插入图片到Excel表格单元格代码详解
- Android实现美团下拉功能
- Linux调试工具GDB使用简易教程