python抓取百度首页的方法
本文实例讲述了python抓取百度首页的方法。分享给大家供大家参考。具体实现方法如下:
import urllib def downURL(url,filename): try: fp=urllib.urlopen(url) except: print('download error') return 0 op=open(filename,'wb') while 1: s=fp.read() if not s: break op.write(s) fp.close() op.close() return 1 downURL("http://www.baidu.com","C:\\url.txt")
希望本文所述对大家的Python程序设计有所帮助。
相关推荐
-
python抓取最新博客内容并生成Rss
osc的rss不是全文输出的,不开心,所以就有了python抓取osc最新博客生成Rss # -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import datetime import time import PyRSS2Gen from email.Utils import formatdate import re import sys import os reload(sys) sys.setdefaul
-
python3抓取中文网页的方法
本文实例讲述了python3抓取中文网页的方法.分享给大家供大家参考.具体如下: #! /usr/bin/python3.2 import sys import urllib.request req = urllib.request.Request('http://www.baidu.com') response = urllib.request.urlopen(req) the_page = response.read() type = sys.getfilesystemencoding()
-
Python抓取百度查询结果的方法
本文实例讲述了Python抓取百度查询结果的方法.分享给大家供大家参考.具体实现方法如下: #win python 2.7.x import re,sys,urllib,codecs xh = urllib.urlopen("http://www.baidu.com/s?q1=123&rn=100").read().decode('utf-8') rc = re.compile(r'<td class=f><h3 class="t">
-
Python中文编码那些事
首先,要明白encode()和decode()的区别 encode()的作用是将Unicode编码的字符串转换为其他编码格式. 例如: st1.encode("utf-8") 这句话的作用是将Unicode编码的st1编码为utf-8编码的字符串 decode()的作用是把其他编码格式的字符串转换成Unicode编码的字符串. 例如: st2.decode("utf-8") 这句话的作用是将utf-8编码的字符串st2解码为Unicode编码的字符串 第二,除Un
-
python实现中文分词FMM算法实例
本文实例讲述了python实现中文分词FMM算法.分享给大家供大家参考.具体分析如下: FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去.假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束. import re def PreProcess(sentence,edcode="utf-8"): sentence = sentence.decode(edcode) sentence=re.s
-
Python使用scrapy抓取网站sitemap信息的方法
本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法.分享给大家供大家参考.具体如下: import re from scrapy.spider import BaseSpider from scrapy import log from scrapy.utils.response import body_or_str from scrapy.http import Request from scrapy.selector import HtmlXPathSelector c
-
Python实现登录人人网并抓取新鲜事的方法
本文实例讲述了Python实现登录人人网并抓取新鲜事的方法.分享给大家供大家参考.具体如下: 这里演示了Python登录人人网并抓取新鲜事的方法(抓取后的排版不太美观~~) from sgmllib import SGMLParser import sys,urllib2,urllib,cookielib class spider(SGMLParser): def __init__(self,email,password): SGMLParser.__init__(self) self.h3=F
-
Python抓取淘宝下拉框关键词的方法
本文实例讲述了Python抓取淘宝下拉框关键词的方法.分享给大家供大家参考.具体如下: import urllib2,re for key in open('key.txt'): do = "http://suggest.taobao.com/sug?code=utf-8&q=%s" % key.rstrip() _re = re.findall('\[\"(.*?)\",\".*?\"\]',urllib2.urlopen(do).re
-
Python实现简单截取中文字符串的方法
本文实例讲述了Python实现简单截取中文字符串的方法.分享给大家供大家参考.具体如下: web应用难免会截取字符串的需求,Python中截取英文很容易: >>> s = 'abce' >>> s[0:3] 'abc' 但是截取utf-8的中文机会截取一半导致一些不是乱码的乱码.其实utf8截取很简单,这里记下来作为备忘 #-*- coding:utf8 -*- s = u'中文截取' s.decode('utf8')[0:3].encode('utf8') # 结果u
-
使用Python程序抓取新浪在国内的所有IP的教程
数据分析,特别是网站分析中需要对访问者的IP进行分析,分析IP中主要是区分来访者的省份+城市+行政区数据,考虑到目前纯真IP数据库并没有把这些数据做很好的区分,于是寻找了另外一个可行的方案(当然不是花钱买哈).解决方案就是抓取新浪的IP数据. 新浪的IP数据接口为: http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85 返回的数据为: 复制代码 代码如下: {"ret"
随机推荐
- Angular2入门教程之模块和组件详解
- Asp.net XML文档进行添加删改操作的实例代码
- C# Stream 和 byte[] 之间的转换
- ASP.NET web.config中数据库连接字符串connectionStrings节的配置方法
- Git 教程之创建仓库详解
- jQuery实现回车键(Enter)切换文本框焦点的代码实例
- java中子类继承父类,程序运行顺序的深入分析
- IOS实现圆形图片效果的两种方法
- Python的语言类型(详解)
- Bootstrap CSS组件之按钮下拉菜单
- JavaScript统计字符串中每个字符出现次数完整实例
- asp.net网络数据库开发实例精解 源文件
- 深入理解Javascript中的循环优化
- Python中asyncore异步模块的用法及实现httpclient的实例
- Python 数据结构之堆栈实例代码
- Ajax跨域问题的解决办法汇总(推荐)
- jsp实现页面分页功能代码
- Ruby包管理器gem常用命令
- java网上图书商城(3)Book模块
- 使用脚本控制网页Table的显示隐藏(全代码)_AX