python抓取网页内容示例分享

代码如下:

import socket
def open_tcp_socket(remotehost,servicename):
    s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
    portnumber=socket.getservbyname(servicename,'tcp')
    s.connect((remotehost,portnumber))
    return s
mysocket=open_tcp_socket('www.taobao.com','http')
mysocket.send('hello')
while(1):
    data=mysocket.recv(1024)
    if(data):
        print data.decode('gbk').encode('utf-8')#对于gbk编码网页必须这样转化一下
    else:
        break
mysocket.close()

(0)

相关推荐

  • 使用Python编写简单网络爬虫抓取视频下载资源

    我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚本语言,没有之一.Python的语言简洁灵活,标准库功能强大,平常可以用作计算器,文本编码转换,图片处理,批量下载,批量处理文本等.总之我很喜欢,也越用越上手,这么好用的一个工具,一般人我不告诉他... 因为其强大的字符串处理能力,以及urllib2,cookielib,re,threading这些

  • python抓取网页中的图片示例

    复制代码 代码如下: #coding:utf8import reimport urllibdef getHTML(url):    page = urllib.urlopen(url)    html = page.read()    return html def getImg(html,imgType):    reg = r'src="(.*?\.+'+imgType+'!slider)" '    imgre = re.compile(reg)    imgList = re.

  • 尝试使用Python多线程抓取代理服务器IP地址的示例

    这里以抓取 http://www.proxy.com.ru 站点的代理服务器为例,代码如下: #!/usr/bin/env python #coding:utf-8 import urllib2 import re import threading import time import MySQLdb rawProxyList = [] checkedProxyList = [] #抓取代理网站 targets = [] for i in xrange(1,42): target = r"htt

  • python抓取网页内容示例分享

    复制代码 代码如下: import socketdef open_tcp_socket(remotehost,servicename):    s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)    portnumber=socket.getservbyname(servicename,'tcp')    s.connect((remotehost,portnumber))    return smysocket=open_tcp_socket

  • python抓取网页内容并进行语音播报的方法

    python2.7,下面是跑在window上的,稍作修改就可以跑在linux上. 实测win7和raspbian均可,且raspbian可以直接调用omxplayer命令进行播放. 利用百度的语音合成api进行语音播报,抓取的页面是北大未名BBS的十大. 先放抓取模块BDWM.py的代码: # -*- coding: utf-8 -*- import urllib2 import HTMLParser class MyParser(HTMLParser.HTMLParser): def __in

  • Python简单实现网页内容抓取功能示例

    本文实例讲述了Python简单实现网页内容抓取功能.分享给大家供大家参考,具体如下: 使用模块: import urllib2 import urllib 普通抓取实例: #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 url = 'http://www.baidu.com' #创建request对象 request = urllib2.Request(url) #发送请求,获取结果 try: response = urllib2

  • Python实现周期性抓取网页内容的方法

    本文实例讲述了Python实现周期性抓取网页内容的方法.分享给大家供大家参考,具体如下: 1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页,并解析出想要的网页内容,代码中是六维论坛的在线人数 论坛在线人数统计代码: #coding=utf-8 import time,sched,os,urllib2,re,string #初始化sched模块的scheduler类 #第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞. s = sche

  • Python爬虫实现网页信息抓取功能示例【URL与正则模块】

    本文实例讲述了Python爬虫实现网页信息抓取功能.分享给大家供大家参考,具体如下: 首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 def test(): f=urllib.urlopen('http://www.baidu.com') while True: firstLine=f.readline() print firstLine 下面我们说

  • Python抓取手机号归属地信息示例代码

    前言 本文给大家介绍的是利用Python抓取手机归属地信息,文中给出了详细的示例代码,相信对大家的理解和学习很有帮助,以下为Python代码,较为简单,供参考. 示例代码 # -*- coding:utf-8 -*- import requests,re o = open('data.txt','a') e = open('error.txt','a') baseUrl = 'http://www.iluohe.com/' r = requests.get('http://www.iluohe.

  • 零基础写python爬虫之使用urllib2组件抓取网页内容

    版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简

  • Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地

    本文实例为大家分享了Android九宫格图片展示的具体代码,供大家参考,具体内容如下 #!/user/bin/python # -*- coding: gbk -*- #Spider.py import urllib2 import httplib import StringIO import gzip import re import chardet import sys import os import datetime from xml.dom.minidom import Documen

  • python抓取并保存html页面时乱码问题的解决方法

    本文实例讲述了python抓取并保存html页面时乱码问题的解决方法.分享给大家供大家参考,具体如下: 在用Python抓取html页面并保存的时候,经常出现抓取下来的网页内容是乱码的问题.出现该问题的原因一方面是自己的代码中编码设置有问题,另一方面是在编码设置正确的情况下,网页的实际编码和标示的编码不符合造成的.html页面标示的编码在这里: 复制代码 代码如下: <meta http-equiv="Content-Type" content="text/html;

  • python抓取文件夹的所有文件

    本文实例为大家分享了python抓取文件夹的所有文件的具体代码,供大家参考,具体内容如下 #!/user/bin/python # -*- coding:utf8 -*- import Basic import os ##################################################### ######## Input #### folder = "D:\\安装包" folder = folder.encode("gbk") ###

随机推荐