android 封装抓取网页信息的实例代码

代码如下:

package cn.mypic;

import java.io.BufferedInputStream; 
    import java.io.BufferedReader; 
    import java.io.File; 
    import java.io.FileNotFoundException; 
    import java.io.FileOutputStream; 
    import java.io.IOException; 
    import java.io.InputStreamReader; 
    import java.net.MalformedURLException; 
    import java.net.URL; 
    import java.util.regex.Matcher; 
    import java.util.regex.Pattern;

public class GetContentPicture { 
    //得到了图片地址并下载图片 
    public void getHtmlPicture(String httpUrl) { 
    URL url; 
    BufferedInputStream in; 
    FileOutputStream file; 
    int count;                      //图片文件名序号  
    FileNumber num=new FileNumber();//图片文件名序号类,num为对象 
    count=num.NumberReadFromFile();//获取图片文件序号 
    try { 
    System.out.println("获取网络图片"); 
       String fileName = (String.valueOf(count)).concat(httpUrl.substring(httpUrl.lastIndexOf(".")));//图片文件序号加上图片的后缀名,后缀名用了String内的一个方法来获得 
        //httpUrl.substring(httpUrl.lastIndexOf("/"));//这样获得的文件名即是图片链接里图片的名字 
       String filePath = "d:/image/";//图片存储的位置 
       url = new URL(httpUrl);

in = new BufferedInputStream(url.openStream());

file = new FileOutputStream(new File(filePath+fileName)); 
       int t; 
       while ((t = in.read()) != -1) { 
        file.write(t); 
       } 
       file.close(); 
       in.close(); 
       System.out.println("图片获取成功"); 
       count=count+1;//图片文件序号加1 
       num.NumberWriteToFile(count);//将图片名序号保存 
    } catch (MalformedURLException e) { 
       e.printStackTrace(); 
    } catch (FileNotFoundException e) { 
       e.printStackTrace(); 
    } catch (IOException e) { 
       e.printStackTrace(); 
    } 
    }

//获取网页的代码保存在String格式的Content中 
    public String getHtmlCode(String httpUrl) throws IOException { 
    String content =""; 
    URL uu = new URL(httpUrl); // 创建URL类对象 
    BufferedReader ii = new BufferedReader(new InputStreamReader(uu 
        .openStream())); // //使用openStream得到一输入流并由此构造一个BufferedReader对象 
    String input; 
    while ((input = ii.readLine()) != null) { // 建立读取循环,并判断是否有读取值 
       content += input; 
    } 
    ii.close(); 
    return content; 
    } 
    //分析网页代码,找到匹配的网页图片地址 
    public void get(String url) throws IOException {

String searchImgReg = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";//用于在网页代码Content中查找匹配的图片链接。 
    String searchImgReg2 = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";

String content = this.getHtmlCode(url);//this指对象gcp,在此地调用获取网页代码,getHtmlCode方法 
    //System.out.println(content); //输出的content将是一个连续的字符串。

Pattern pattern = Pattern.compile(searchImgReg);//java.util.regex.Pattern 
    Matcher matcher = pattern.matcher(content);     //java.util.regex.Matcher 
    while (matcher.find()) { 
       System.out.println(matcher.group(3));//输出图片链接地址到屏幕 
    // System.out.println(url); 
       this.getHtmlPicture(matcher.group(3));//对象调用getHtmlPicture从网上下载并输出图片文件到指定目录

}

pattern = Pattern.compile(searchImgReg2); 
    matcher = pattern.matcher(content); 
    while (matcher.find()) { 
       System.out.println(matcher.group(3)); 
       this.getHtmlPicture(matcher.group(3));


    // searchImgReg = 
    // "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")"; 
    } 
    //主函数url网页的地址 
    public static void main(String[] args) throws IOException {

String url = "http://www.baidu.com"; 
    GetContentPicture gcp = new GetContentPicture(); 
    gcp.get(url);

}

}

代码如下:

package cn.mypic;

import java.io.*;

public class FileNumber{ 
    //文件写 
    public void NumberWriteToFile(int x){ 
       int c=0; 
       c=x; 
       File filePath=new File("d:/image");//文件名序号TXT文件保存地址 
       File f1=new File(filePath,"number.txt"); 
       try{ 
        FileOutputStream fout=new FileOutputStream(f1); 
        DataOutputStream out=new DataOutputStream(fout); 
        out.writeInt(c);


       catch(FileNotFoundException e){ 
        System.err.println(e); 
       } 
       catch(IOException e){ 
        System.err.println(e); 
       }


    //文件读 
    public int NumberReadFromFile(){ 
       int c1 = 0; 
       File filePath=new File("d:/image"); 
       File f1=new File(filePath,"number.txt"); 
       try{ 
        FileInputStream fin=new FileInputStream(f1); 
        DataInputStream in=new DataInputStream(fin); 
        c1=in.readInt(); 
        System.out.println(c1);//输出文件内容至屏幕 
       } 
       catch(FileNotFoundException e){ 
        System.err.println(e); 
       } 
       catch(IOException e){ 
        System.err.println(e); 
       } 
       return c1; 
    } 
    public static void main(String args[]){

}

}

(0)

相关推荐

  • 封装的android监听手指左右滑动屏幕的事件类分享

    左右滑动是智能手机最常用的动作,在此简单的封装了一下,以后直接拿来用就可以了. 简单的只需要几行就可以了,下面那个类是封装好了的. package com.example.test; import android.os.Bundle; import android.app.Activity; import android.content.Context; import android.util.Log; import android.widget.RelativeLayout; public c

  • android控件封装 自己封装的dialog控件

    自定义dialog肯定是用的很多了但是感觉每次做都是很乱 单纯完成任务而已,现在封装了一下 以后用到直接copy 先上图: 主activity 复制代码 代码如下: package com.su.testcustomdialog; import com.su.testcustomdialog.MyDialog.Dialogcallback; import android.app.Activity; import android.os.Bundle; import android.view.Vie

  • 浅析android中的线程封装

    简单写一下android 对线程 的c++封装---其实API已经写得很清楚了-- 封装 的文件 :/frameworks/base/include/utils/threads.h 这里不讨论具体实现,具体实现是和系统 相关联的--首先Anroid提供了几个与直接创建线程的函数: 复制代码 代码如下: inline bool createThread(thread_func_t f, void *a) inline bool createThreadEtc(thread_func_t entry

  • Android开发之针对联系人的封装

    大家可能在做app的时候,或多或少需要使用联系人,而根据google提供的api,你需要编写大量的代码,例如首先需要查询数据库,涉及到数据库表和字段以及对应的SQL语句. 那么我们是否可以在我们的项目中添加联系人模块,这样能够更方便的使用手机联系人呢,答案是肯定的,并将其作为一个独立的模块,这样在你的其他app中,你都可以引入该模块,或者你能够将该模块上传到maven库,方便大家的使用. 那么先来看看效果吧: 首先是将来涉及到的各个模块的item. 然后是单个模块中的各个测试: 比如我们现在需要

  • Android封装的http请求实用工具类

    复制代码 代码如下: import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.URLEncoder;import java.security.KeyStore;import java.util.Iterator;import java.util.List;import java.util.Map;import java.util.Map.Entry; import org.apache.http

  • Android支付宝支付封装代码

    在做Android支付的时候肯定会用到支付宝支付, 根据官方给出的demo做起来非常费劲,所以我们需要一次简单的封装. 封装的代码也很简单,就是将官网给的demo提取出一个类来方便使用. public class Alipay { // 商户PID public static final String PARTNER = "123456789"; // 商户收款账号 public static final String SELLER = "qibin0506@gmail.co

  • android 封装抓取网页信息的实例代码

    复制代码 代码如下: package cn.mypic; import java.io.BufferedInputStream;      import java.io.BufferedReader;      import java.io.File;      import java.io.FileNotFoundException;      import java.io.FileOutputStream;      import java.io.IOException;      impo

  • Python requests模块基础使用方法实例及高级应用(自动登陆,抓取网页源码)实例详解

    1.Python requests模块说明 requests是使用Apache2 licensed 许可证的HTTP库. 用python编写. 比urllib2模块更简洁. Request支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码. 在python内置模块的基础上进行了高度的封装,从而使得python进行网络请求时,变得人性化,使用Requests可以轻而易举的完成浏览器可有的任何操作. 现代,国际化

  • 在Python中使用cookielib和urllib2配合PyQuery抓取网页信息

    刚才好无聊,突然想起来之前做一个课表的点子,于是百度了起来. 刚开始,我是这样想的:在写微信墙的时候,用到了urllib2[两行代码抓网页],那么就只剩下解析html了.于是百度:python解析html.发现一篇好文章,其中介绍到了pyQuery. pyQuery 是 jQuery 在 Python 中的实现,能够以 jQuery 的语法來操作解析 HTML 文档.使用前需要安装,Mac安装方法如下: sudo easy_install pyquery OK!安装好了! 我们来试一试吧: fr

  • Python之多线程爬虫抓取网页图片的示例代码

    目标 嗯,我们知道搜索或浏览网站时会有很多精美.漂亮的图片. 我们下载的时候,得鼠标一个个下载,而且还翻页. 那么,有没有一种方法,可以使用非人工方式自动识别并下载图片.美美哒. 那么请使用python语言,构建一个抓取和下载网页图片的爬虫. 当然为了提高效率,我们同时采用多线程并行方式. 思路分析 Python有很多的第三方库,可以帮助我们实现各种各样的功能.问题在于,我们弄清楚我们需要什么: 1)http请求库,根据网站地址可以获取网页源代码.甚至可以下载图片写入磁盘. 2)解析网页源代码,

  • Python3简单爬虫抓取网页图片代码实例

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正. import urllib.request import re import os import urllib #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlope

  • Python如何使用BeautifulSoup爬取网页信息

    这篇文章主要介绍了Python如何使用BeautifulSoup爬取网页信息,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 简单爬取网页信息的思路一般是 1.查看网页源码 2.抓取网页信息 3.解析网页内容 4.储存到文件 现在使用BeautifulSoup解析库来爬取刺猬实习Python岗位薪资情况 一.查看网页源码 这部分是我们需要的内容,对应的源码为: 分析源码,可以得知: 1.岗位信息列表在<section class="widg

  • 用Python程序抓取网页的HTML信息的一个小实例

    抓取网页数据的思路有好多种,一般有:直接代码请求http.模拟浏览器请求数据(通常需要登录验证).控制浏览器实现数据抓取等.这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据 将ittf网站上这个页面上所有这些选手的超链接保存下来. 数据请求 真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定: doc = requests.get(url).text 解析html获得数据 以beautifulsoup为例,包含获取标签.链接,以及根据html层次结

  • Python实现多线程抓取网页功能实例详解

    本文实例讲述了Python实现多线程抓取网页功能.分享给大家供大家参考,具体如下: 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术的实现. 1.larbin的URL去重用的很高效的bloom filter算法: 2.DNS处理,使用的adns异步的开源组件: 3.对于url队列的处理,则是用部分缓存到内存,部分写入文件的策略. 4.larbin对文件的相关操作做了很多工作 5.在larbin里有连接池,通过创建套接字,向目标站点

  • Python实现抓取网页并且解析的实例

    本文以实例形式讲述了Python实现抓取网页并解析的功能.主要解析问答与百度的首页.分享给大家供大家参考之用. 主要功能代码如下: #!/usr/bin/python #coding=utf-8 import sys import re import urllib2 from urllib import urlencode from urllib import quote import time maxline = 2000 wenda = re.compile("href=\"htt

  • php实现递归抓取网页类实例

    本文实例讲述了php实现递归抓取网页类的方法.分享给大家供大家参考.具体如下: <?php class crawler{ private $_depth=5; private $_urls=array(); function extract_links($url) { if(!$this->_started){ $this->_started=1; $curr_depth=0; }else{ $curr_depth++; } if($curr_depth<$this->_de

随机推荐