python抓取百度首页的方法
本文实例讲述了python抓取百度首页的方法。分享给大家供大家参考。具体实现方法如下:
import urllib def downURL(url,filename): try: fp=urllib.urlopen(url) except: print('download error') return 0 op=open(filename,'wb') while 1: s=fp.read() if not s: break op.write(s) fp.close() op.close() return 1 downURL("http://www.baidu.com","C:\\url.txt")
希望本文所述对大家的Python程序设计有所帮助。
相关推荐
-
Python使用scrapy抓取网站sitemap信息的方法
本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法.分享给大家供大家参考.具体如下: import re from scrapy.spider import BaseSpider from scrapy import log from scrapy.utils.response import body_or_str from scrapy.http import Request from scrapy.selector import HtmlXPathSelector c
-
Python实现简单截取中文字符串的方法
本文实例讲述了Python实现简单截取中文字符串的方法.分享给大家供大家参考.具体如下: web应用难免会截取字符串的需求,Python中截取英文很容易: >>> s = 'abce' >>> s[0:3] 'abc' 但是截取utf-8的中文机会截取一半导致一些不是乱码的乱码.其实utf8截取很简单,这里记下来作为备忘 #-*- coding:utf8 -*- s = u'中文截取' s.decode('utf8')[0:3].encode('utf8') # 结果u
-
python实现中文分词FMM算法实例
本文实例讲述了python实现中文分词FMM算法.分享给大家供大家参考.具体分析如下: FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去.假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束. import re def PreProcess(sentence,edcode="utf-8"): sentence = sentence.decode(edcode) sentence=re.s
-
python3抓取中文网页的方法
本文实例讲述了python3抓取中文网页的方法.分享给大家供大家参考.具体如下: #! /usr/bin/python3.2 import sys import urllib.request req = urllib.request.Request('http://www.baidu.com') response = urllib.request.urlopen(req) the_page = response.read() type = sys.getfilesystemencoding()
-
Python实现登录人人网并抓取新鲜事的方法
本文实例讲述了Python实现登录人人网并抓取新鲜事的方法.分享给大家供大家参考.具体如下: 这里演示了Python登录人人网并抓取新鲜事的方法(抓取后的排版不太美观~~) from sgmllib import SGMLParser import sys,urllib2,urllib,cookielib class spider(SGMLParser): def __init__(self,email,password): SGMLParser.__init__(self) self.h3=F
-
Python中文编码那些事
首先,要明白encode()和decode()的区别 encode()的作用是将Unicode编码的字符串转换为其他编码格式. 例如: st1.encode("utf-8") 这句话的作用是将Unicode编码的st1编码为utf-8编码的字符串 decode()的作用是把其他编码格式的字符串转换成Unicode编码的字符串. 例如: st2.decode("utf-8") 这句话的作用是将utf-8编码的字符串st2解码为Unicode编码的字符串 第二,除Un
-
使用Python程序抓取新浪在国内的所有IP的教程
数据分析,特别是网站分析中需要对访问者的IP进行分析,分析IP中主要是区分来访者的省份+城市+行政区数据,考虑到目前纯真IP数据库并没有把这些数据做很好的区分,于是寻找了另外一个可行的方案(当然不是花钱买哈).解决方案就是抓取新浪的IP数据. 新浪的IP数据接口为: http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85 返回的数据为: 复制代码 代码如下: {"ret"
-
Python抓取淘宝下拉框关键词的方法
本文实例讲述了Python抓取淘宝下拉框关键词的方法.分享给大家供大家参考.具体如下: import urllib2,re for key in open('key.txt'): do = "http://suggest.taobao.com/sug?code=utf-8&q=%s" % key.rstrip() _re = re.findall('\[\"(.*?)\",\".*?\"\]',urllib2.urlopen(do).re
-
Python抓取百度查询结果的方法
本文实例讲述了Python抓取百度查询结果的方法.分享给大家供大家参考.具体实现方法如下: #win python 2.7.x import re,sys,urllib,codecs xh = urllib.urlopen("http://www.baidu.com/s?q1=123&rn=100").read().decode('utf-8') rc = re.compile(r'<td class=f><h3 class="t">
-
python抓取最新博客内容并生成Rss
osc的rss不是全文输出的,不开心,所以就有了python抓取osc最新博客生成Rss # -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import datetime import time import PyRSS2Gen from email.Utils import formatdate import re import sys import os reload(sys) sys.setdefaul
随机推荐
- 详解redis是如何实现队列消息的ack
- js/jquery解析json和数组格式的方法详解
- 谈谈Java中try-catch-finally中的return语句
- 纯Java代码实现流星划过天空
- Android自定义StickinessView粘性滑动效果
- 详解jdbc实现对CLOB和BLOB数据类型的操作
- C#获取视频某一帧的缩略图的方法
- Win2003 IIS浏览ASP提示无法找到该页的解决办法
- java生成缩略图的方法示例
- Java中一个线程执行死循环有什么后果
- php 定界符格式引起的错误
- C#如何动态设置屏幕分辨率
- 使用户点击后退按钮使效三行代码
- vue2.0 循环遍历加载不同图片的方法
- 解决layer弹出层自适应页面大小的问题
- Android Studio利用AChartEngine制作饼图的方法
- Vue使用NPM方式搭建项目
- Django REST框架创建一个简单的Api实例讲解
- 利用JS如何获取form表单数据
- Windows批量搜索并复制/剪切文件的批处理程序实例