Java实现的爬虫抓取图片并保存操作示例

2025-02-26 13:51:05

本文实例讲述了Java实现的爬虫抓取图片并保存操作。分享给大家供大家参考，具体如下：

这是我参考了网上一些资料写的第一个java爬虫程序

本来是想获取煎蛋网无聊图的图片，但是网络返回码一直是503，所以换了网站

import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/*
 * 网络爬虫取数据
 *
 * */
public class JianDan {
  public static String GetUrl(String inUrl){
    StringBuilder sb = new StringBuilder();
    try {
      URL url =new URL(inUrl);
      BufferedReader reader =new BufferedReader(new InputStreamReader(url.openStream()));
      String temp="";
      while((temp=reader.readLine())!=null){
        //System.out.println(temp);
        sb.append(temp);
      }
    } catch (MalformedURLException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    } catch (IOException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    }
    return sb.toString();
  }
  public static List<String> GetMatcher(String str,String url){
    List<String> result = new ArrayList<String>();
    Pattern p =Pattern.compile(url);//获取网页地址
    Matcher m =p.matcher(str);
    while(m.find()){
      //System.out.println(m.group(1));
      result.add(m.group(1));
    }
    return result;
  }
  public static void main(String args[]){
    String str=GetUrl("http://www.163.com");
    List<String> ouput =GetMatcher(str,"src=\"([\\w\\s./:]+?)\"");
    for(String temp:ouput){
      //System.out.println(ouput.get(0));
      System.out.println(temp);
    }
    String aurl=ouput.get(0);
     // 构造URL
    URL url;
    try {
      url = new URL(aurl);
       // 打开URL连接
      URLConnection con = (URLConnection)url.openConnection();
       // 得到URL的输入流
      InputStream input = con.getInputStream();
      // 设置数据缓冲
      byte[] bs = new byte[1024 * 2];
      // 读取到的数据长度
      int len;
      // 输出的文件流保存图片至本地
      OutputStream os = new FileOutputStream("a.png");
      while ((len = input.read(bs)) != -1) {
      os.write(bs, 0, len);
      }
      os.close();
      input.close();
    } catch (MalformedURLException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    } catch (IOException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    }
  }
}

运行输出：

更多关于java相关内容感兴趣的读者可查看本站专题：《Java网络编程技巧总结》、《Java Socket编程技巧总结》、《Java文件与目录操作技巧汇总》、《Java数据结构与算法教程》、《Java操作DOM节点技巧总结》和《Java缓存操作技巧汇总》

希望本文所述对大家java程序设计有所帮助。

java实现爬取知乎用户基本信息

本文实例为大家分享了一个基于JAVA的知乎爬虫,抓取知乎用户基本信息,基于HttpClient 4.5,供大家参考,具体内容如下详细内容: 抓取90W+用户信息(基本上活跃的用户都在里面) 大致思路: 1.首先模拟登录知乎,登录成功后将Cookie序列化到磁盘,不用以后每次都登录(如果不模拟登录,可以直接从浏览器塞入Cookie也是可以的). 2.创建两个线程池和一个Storage.一个抓取网页线程池,负责执行request请求,并返回网页内容,存到Storage中.另一个是解析网页线程池,负
详解Java两种方式简单实现：爬取网页并且保存

对于网络,我一直处于好奇的态度.以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错误,就要调试很多时间,太浪费时间. 后来一想,既然早早给自己下了保证,就先实现它吧,从简单开始,慢慢增加功能,有时间就实现一个,并且随时优化代码. 下面是我简单实现爬取指定网页,并且保存的简单实现,其实有几种方式可以实现,这里慢慢添加该功能的几种实现方式. UrlConnection爬取实现 package html; import java.io.BufferedReader; i
java代理实现爬取代理IP的示例

仅仅使用了一个java文件,运行main方法即可,需要依赖的jar包是com.alibaba.fastjson(版本1.2.28)和Jsoup(版本1.10.2) 如果用了pom,那么就是以下两个: <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.28</version> </depe
Java实现爬取百度图片的方法分析

本文实例讲述了Java实现爬取百度图片的方法.分享给大家供大家参考,具体如下: 在以往用java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库.现在我们有了JSOUP,以后的处理HTML的内容只需要使用JSOUP就已经足够了,JSOUP有更快的更新,更方便的API等. jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,
详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;
Java爬虫实现爬取京东上的手机搜索页面 HttpCliient+Jsoup

1.需求及配置需求:爬取京东手机搜索页面的信息,记录各手机的名称,价格,评论数等,形成一个可用于实际分析的数据表格. 使用Maven项目,log4j记录日志,日志仅导出到控制台. Maven依赖如下(pom.xml) <dependencies> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId>
Java实现爬取往期所有双色球开奖结果功能示例

本文实例讲述了Java实现爬取往期所有双色球开奖结果功能.分享给大家供大家参考,具体如下: 梦想还是要有的,万一实现了呢?我相信经常买双色球的朋友和我都会有一个疑问,就是往期双色球的开奖结果是什么?我钟意的这一注双色球在往期是否开过一等奖,如果开过的话,基本上可以放弃这一注了,因为历史上应该没有出现过两期双色球开奖完全一致的吧?那么往期的开奖结果是什么呢?我自己用Java写了一个简易的类,爬取所有双色球开奖结果,本来想开发安卓版本的,由于UI等需要时间准备,有缘再开发吧. import java
Java实现的爬虫抓取图片并保存操作示例

本文实例讲述了Java实现的爬虫抓取图片并保存操作.分享给大家供大家参考,具体如下: 这是我参考了网上一些资料写的第一个java爬虫程序本来是想获取煎蛋网无聊图的图片,但是网络返回码一直是503,所以换了网站 import java.io.BufferedReader; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.InputStre
Java实现大文件的切割与合并操作示例

本文实例讲述了Java实现大文件的切割与合并操作.分享给大家供大家参考,具体如下: 这里实现对大文件的切割与合并. 按指定个数切(如把一个文件切成10份)或按指定大小切(如每份最大不超过10M),这两种方式都可以. 在这里我只是给大家写下我自己的一点简单的代码: package io2; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io
Java基于分治算法实现的线性时间选择操作示例

本文实例讲述了Java基于分治算法实现的线性时间选择操作.分享给大家供大家参考,具体如下: 线性时间选择问题:给定线性序集中n个元素和一个整数k,1≤k≤n,要求找出这n个元素中第k小的元素,(这里给定的线性集是无序的). 随机划分线性选择线性时间选择随机划分法可以模仿随机化快速排序算法设计.基本思想是对输入数组进行递归划分,与快速排序不同的是,它只对划分出的子数组之一进行递归处理. 程序解释:利用随机函数产生划分基准,将数组a[p:r]划分成两个子数组a[p:i]和a[i+1:r],使a[p
Java基于jdbc实现的增删改查操作示例

本文实例讲述了Java基于jdbc实现的增删改查操作.分享给大家供大家参考,具体如下: 增删改操作: package java_web; import java.sql.DriverManager; import java.sql.SQLException; import com.mysql.jdbc.Connection; import com.mysql.jdbc.Statement; /** * jdbc CURD * @author Administrator * */ public c
Java面向对象之成员隐藏与属性封装操作示例

本文实例讲述了Java面向对象之成员隐藏与属性封装操作.分享给大家供大家参考,具体如下: 关于这个功能的优点我现在体会还不深,只是从书本中找到了面向对象编程的一个原则--尽量让数据私有.如果需要对数据的信息进行修改或者获取,不会直接修改成员信息,而是通过方法的调用来实现. 写如下代码: packagefengzhuang; class HuaShanPai { private String zhangmen; private int dizishu; private String gongfu;
Java使用嵌套循环模拟ATM机取款业务操作示例

本文实例讲述了Java使用嵌套循环模拟ATM机取款业务操作.分享给大家供大家参考,具体如下: 代码: package com.jredu.ch03; import java.util.Scanner; public class Work4 { public static void main(String[] args) { // TODO Auto-generated method stub Scanner scan = new Scanner(System.in); for (int i =
Java使用Jdbc连接Oracle执行简单查询操作示例

本文实例讲述了Java使用Jdbc连接Oracle执行简单查询操作.分享给大家供大家参考,具体如下: Java Jdbc 连接 Oracle 执行简单查询示例: package com.test.dbtest; import java.sql.CallableStatement; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLExce
Java实现创建运行时类的对象操作示例

本文实例讲述了Java实现创建运行时类的对象操作.分享给大家供大家参考,具体如下: 获取运行时类的方法: public void test() throws ClassNotFoundException { /* * Class类是反射的源头 * 创建一个类,通过编译(javac.exe),生成对应的.class文件,之后使用java.exe加载(JVM的类加载器完成的)此.class文件. * 此.class文件加载到内存后,就是一个运行时类,存放在缓存区. * 那么这个运行时类本身就是一个C
Java中父类和子类之间的转换操作示例

本文实例讲述了Java中父类和子类之间的转换操作.分享给大家供大家参考,具体如下: 一.父类引用强转成为子类引用 package learn20180720; public class People { private String name; private Integer age; private Double height; public People(){ this.name = ""; this.age = 0 ; this.height = 0.0; } public Pe
Python之多线程爬虫抓取网页图片的示例代码

目标嗯,我们知道搜索或浏览网站时会有很多精美.漂亮的图片. 我们下载的时候,得鼠标一个个下载,而且还翻页. 那么,有没有一种方法,可以使用非人工方式自动识别并下载图片.美美哒. 那么请使用python语言,构建一个抓取和下载网页图片的爬虫. 当然为了提高效率,我们同时采用多线程并行方式. 思路分析 Python有很多的第三方库,可以帮助我们实现各种各样的功能.问题在于,我们弄清楚我们需要什么: 1)http请求库,根据网站地址可以获取网页源代码.甚至可以下载图片写入磁盘. 2)解析网页源代码,

Java实现的爬虫抓取图片并保存操作示例

相关推荐

随机推荐