android 封装抓取网页信息的实例代码

2025-03-29 06:46:32

代码如下:

package cn.mypic;

import java.io.BufferedInputStream;
    import java.io.BufferedReader;
    import java.io.File;
    import java.io.FileNotFoundException;
    import java.io.FileOutputStream;
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.net.MalformedURLException;
    import java.net.URL;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;

public class GetContentPicture {
    //得到了图片地址并下载图片
    public void getHtmlPicture(String httpUrl) {
    URL url;
    BufferedInputStream in;
    FileOutputStream file;
    int count;                      //图片文件名序号
    FileNumber num=new FileNumber();//图片文件名序号类，num为对象
    count=num.NumberReadFromFile();//获取图片文件序号
    try {
    System.out.println("获取网络图片");
       String fileName = (String.valueOf(count)).concat(httpUrl.substring(httpUrl.lastIndexOf(".")));//图片文件序号加上图片的后缀名，后缀名用了String内的一个方法来获得
        //httpUrl.substring(httpUrl.lastIndexOf("/"));//这样获得的文件名即是图片链接里图片的名字
       String filePath = "d:/image/";//图片存储的位置
       url = new URL(httpUrl);

in = new BufferedInputStream(url.openStream());

file = new FileOutputStream(new File(filePath+fileName));
       int t;
       while ((t = in.read()) != -1) {
        file.write(t);
       }
       file.close();
       in.close();
       System.out.println("图片获取成功");
       count=count+1;//图片文件序号加1
       num.NumberWriteToFile(count);//将图片名序号保存
    } catch (MalformedURLException e) {
       e.printStackTrace();
    } catch (FileNotFoundException e) {
       e.printStackTrace();
    } catch (IOException e) {
       e.printStackTrace();
    }
    }

//获取网页的代码保存在String格式的Content中
    public String getHtmlCode(String httpUrl) throws IOException {
    String content ="";
    URL uu = new URL(httpUrl); // 创建URL类对象
    BufferedReader ii = new BufferedReader(new InputStreamReader(uu
        .openStream())); // //使用openStream得到一输入流并由此构造一个BufferedReader对象
    String input;
    while ((input = ii.readLine()) != null) { // 建立读取循环，并判断是否有读取值
       content += input;
    }
    ii.close();
    return content;
    }
    //分析网页代码，找到匹配的网页图片地址
    public void get(String url) throws IOException {

String searchImgReg = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";//用于在网页代码Content中查找匹配的图片链接。
String searchImgReg2 = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";

String content = this.getHtmlCode(url);//this指对象gcp，在此地调用获取网页代码，getHtmlCode方法
//System.out.println(content); //输出的content将是一个连续的字符串。

Pattern pattern = Pattern.compile(searchImgReg);//java.util.regex.Pattern
    Matcher matcher = pattern.matcher(content);     //java.util.regex.Matcher
    while (matcher.find()) {
       System.out.println(matcher.group(3));//输出图片链接地址到屏幕
    // System.out.println(url);
       this.getHtmlPicture(matcher.group(3));//对象调用getHtmlPicture从网上下载并输出图片文件到指定目录

}

pattern = Pattern.compile(searchImgReg2);
    matcher = pattern.matcher(content);
    while (matcher.find()) {
       System.out.println(matcher.group(3));
       this.getHtmlPicture(matcher.group(3));

}
    // searchImgReg =
    // "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";
    }
    //主函数url网页的地址
    public static void main(String[] args) throws IOException {

String url = "http://www.baidu.com";
GetContentPicture gcp = new GetContentPicture();
gcp.get(url);

}

代码如下:

package cn.mypic;

import java.io.*;

public class FileNumber{
    //文件写
    public void NumberWriteToFile(int x){
       int c=0;
       c=x;
       File filePath=new File("d:/image");//文件名序号TXT文件保存地址
       File f1=new File(filePath,"number.txt");
       try{
        FileOutputStream fout=new FileOutputStream(f1);
        DataOutputStream out=new DataOutputStream(fout);
        out.writeInt(c);

}
       catch(FileNotFoundException e){
        System.err.println(e);
       }
       catch(IOException e){
        System.err.println(e);
       }

}
    //文件读
    public int NumberReadFromFile(){
       int c1 = 0;
       File filePath=new File("d:/image");
       File f1=new File(filePath,"number.txt");
       try{
        FileInputStream fin=new FileInputStream(f1);
        DataInputStream in=new DataInputStream(fin);
        c1=in.readInt();
        System.out.println(c1);//输出文件内容至屏幕
       }
       catch(FileNotFoundException e){
        System.err.println(e);
       }
       catch(IOException e){
        System.err.println(e);
       }
       return c1;
    }
    public static void main(String args[]){

}

Android开发之针对联系人的封装

大家可能在做app的时候,或多或少需要使用联系人,而根据google提供的api,你需要编写大量的代码,例如首先需要查询数据库,涉及到数据库表和字段以及对应的SQL语句. 那么我们是否可以在我们的项目中添加联系人模块,这样能够更方便的使用手机联系人呢,答案是肯定的,并将其作为一个独立的模块,这样在你的其他app中,你都可以引入该模块,或者你能够将该模块上传到maven库,方便大家的使用. 那么先来看看效果吧: 首先是将来涉及到的各个模块的item. 然后是单个模块中的各个测试: 比如我们现在需要
浅析android中的线程封装

简单写一下android 对线程的c++封装---其实API已经写得很清楚了-- 封装的文件 :/frameworks/base/include/utils/threads.h 这里不讨论具体实现,具体实现是和系统相关联的--首先Anroid提供了几个与直接创建线程的函数: 复制代码代码如下: inline bool createThread(thread_func_t f, void *a) inline bool createThreadEtc(thread_func_t entry
封装的android监听手指左右滑动屏幕的事件类分享

左右滑动是智能手机最常用的动作,在此简单的封装了一下,以后直接拿来用就可以了. 简单的只需要几行就可以了,下面那个类是封装好了的. package com.example.test; import android.os.Bundle; import android.app.Activity; import android.content.Context; import android.util.Log; import android.widget.RelativeLayout; public c
android控件封装自己封装的dialog控件

自定义dialog肯定是用的很多了但是感觉每次做都是很乱单纯完成任务而已,现在封装了一下以后用到直接copy 先上图: 主activity 复制代码代码如下: package com.su.testcustomdialog; import com.su.testcustomdialog.MyDialog.Dialogcallback; import android.app.Activity; import android.os.Bundle; import android.view.Vie
Android封装的http请求实用工具类

复制代码代码如下: import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.URLEncoder;import java.security.KeyStore;import java.util.Iterator;import java.util.List;import java.util.Map;import java.util.Map.Entry; import org.apache.http
Android支付宝支付封装代码

在做Android支付的时候肯定会用到支付宝支付, 根据官方给出的demo做起来非常费劲,所以我们需要一次简单的封装. 封装的代码也很简单,就是将官网给的demo提取出一个类来方便使用. public class Alipay { // 商户PID public static final String PARTNER = "123456789"; // 商户收款账号 public static final String SELLER = "qibin0506@gmail.co
android 封装抓取网页信息的实例代码

复制代码代码如下: package cn.mypic; import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; impo
Python requests模块基础使用方法实例及高级应用(自动登陆,抓取网页源码)实例详解

1.Python requests模块说明 requests是使用Apache2 licensed 许可证的HTTP库. 用python编写. 比urllib2模块更简洁. Request支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码. 在python内置模块的基础上进行了高度的封装,从而使得python进行网络请求时,变得人性化,使用Requests可以轻而易举的完成浏览器可有的任何操作. 现代,国际化
在Python中使用cookielib和urllib2配合PyQuery抓取网页信息

刚才好无聊,突然想起来之前做一个课表的点子,于是百度了起来. 刚开始,我是这样想的:在写微信墙的时候,用到了urllib2[两行代码抓网页],那么就只剩下解析html了.于是百度:python解析html.发现一篇好文章,其中介绍到了pyQuery. pyQuery 是 jQuery 在 Python 中的实现,能够以 jQuery 的语法來操作解析 HTML 文档.使用前需要安装,Mac安装方法如下: sudo easy_install pyquery OK!安装好了! 我们来试一试吧: fr
Python之多线程爬虫抓取网页图片的示例代码

目标嗯,我们知道搜索或浏览网站时会有很多精美.漂亮的图片. 我们下载的时候,得鼠标一个个下载,而且还翻页. 那么,有没有一种方法,可以使用非人工方式自动识别并下载图片.美美哒. 那么请使用python语言,构建一个抓取和下载网页图片的爬虫. 当然为了提高效率,我们同时采用多线程并行方式. 思路分析 Python有很多的第三方库,可以帮助我们实现各种各样的功能.问题在于,我们弄清楚我们需要什么: 1)http请求库,根据网站地址可以获取网页源代码.甚至可以下载图片写入磁盘. 2)解析网页源代码,
Python3简单爬虫抓取网页图片代码实例

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正. import urllib.request import re import os import urllib #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlope
Python如何使用BeautifulSoup爬取网页信息

这篇文章主要介绍了Python如何使用BeautifulSoup爬取网页信息,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下简单爬取网页信息的思路一般是 1.查看网页源码 2.抓取网页信息 3.解析网页内容 4.储存到文件现在使用BeautifulSoup解析库来爬取刺猬实习Python岗位薪资情况一.查看网页源码这部分是我们需要的内容,对应的源码为: 分析源码,可以得知: 1.岗位信息列表在<section class="widg
用Python程序抓取网页的HTML信息的一个小实例

抓取网页数据的思路有好多种,一般有:直接代码请求http.模拟浏览器请求数据(通常需要登录验证).控制浏览器实现数据抓取等.这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据将ittf网站上这个页面上所有这些选手的超链接保存下来. 数据请求真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定: doc = requests.get(url).text 解析html获得数据以beautifulsoup为例,包含获取标签.链接,以及根据html层次结
Python实现多线程抓取网页功能实例详解

本文实例讲述了Python实现多线程抓取网页功能.分享给大家供大家参考,具体如下: 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术的实现. 1.larbin的URL去重用的很高效的bloom filter算法: 2.DNS处理,使用的adns异步的开源组件: 3.对于url队列的处理,则是用部分缓存到内存,部分写入文件的策略. 4.larbin对文件的相关操作做了很多工作 5.在larbin里有连接池,通过创建套接字,向目标站点
Python实现抓取网页并且解析的实例

本文以实例形式讲述了Python实现抓取网页并解析的功能.主要解析问答与百度的首页.分享给大家供大家参考之用. 主要功能代码如下: #!/usr/bin/python #coding=utf-8 import sys import re import urllib2 from urllib import urlencode from urllib import quote import time maxline = 2000 wenda = re.compile("href=\"htt
php实现递归抓取网页类实例

本文实例讲述了php实现递归抓取网页类的方法.分享给大家供大家参考.具体如下: <?php class crawler{ private $_depth=5; private $_urls=array(); function extract_links($url) { if(!$this->_started){ $this->_started=1; $curr_depth=0; }else{ $curr_depth++; } if($curr_depth<$this->_de

android 封装抓取网页信息的实例代码

相关推荐

随机推荐