Java实现一个小说采集程序的简单实例

被标题吸引进来的不要骂我。

只是一个简单的实现,随手写了来下载一部喜欢的小说的。示例中的小说只是示例,不是我的菜。

使用了jsoup。挺好用的一个工具。

有需要的话,参考下自己改吧。挺简单的,是吧。

代码如下:

package com.zhyea.doggie;

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class Doggie {

  public static void main(String[] args){
    try{
      File txtFile = new File("D:/无限崩坏.txt");
      createTxtDoc(txtFile);
      addContent(txtFile);
    }catch(Exception e){
      e.printStackTrace();
    }

  }

  /**
   * 向小说文件中添加内容
   * @param txtFile
   *       小说文件
   * @throws IOException
   * @throws InterruptedException
   */
  private static void addContent(File txtFile) throws IOException, InterruptedException{
    appendTxt(txtFile, getBookInfo("无限崩坏", "啪啪啪狂魔"));
    String url = "http://www.83kxs.com/View/12/12653/{pattern}.html";
    for(int i=5850686; i<=5945501; i++){
      try{
        String tmp = url.replace("{pattern}", i+"");
        appendTxt(txtFile, getPageContent(tmp));
      }catch(Exception e){
        e.printStackTrace();
        continue;
      }
    }
  }

  /**
   * 设置书名和作者
   * @param bookName
   *         书名
   * @param author
   *         作者
   * @return
   */
  private static String getBookInfo(String bookName, String author){
    return COMMON.replace("{book}", bookName).replace("{author}", author);
  }  

  /**
   * 读取页面内容
   * @param url
   *      访问路径
   * @return
   * @throws IOException
   */
  private static String getPageContent(String url) throws IOException{
    String rtn = null;

    Document doc = Jsoup.connect(url).get();
    Elements content = doc.select(".text p");
    Elements title = doc.select("#title");

    System.out.println(title.text());

    content.select("font").remove();
    content.select("script").remove();
    content.select("ins").remove();
    content.select("a").remove();

    rtn = title.text() + NEWLINE
      + content.html().replaceAll("<p>", "")
              .replaceAll("</p>", "")
              .replaceAll("\\<!--(.+)--\\>", "")
              .replaceAll(" ", "")
              .replaceAll("<br>", NEWLINE)
      + NEWLINE;

    return rtn;
  }

  /**
   * 创建新的txt文件
   * @param fullName
   *       文件全名
   * @return
   * @throws Exception
   */
  private static boolean createTxtDoc(File txtFile) throws Exception{
    try{
      return txtFile.createNewFile();
    }catch(Exception e){
      throw e;
    }
  }

  /**
   * 向txt文件中追加内容
   * @param txtFile
   *       要操作的txt文件
   * @param content
   *       要追加的内容
   * @throws IOException
   */
  private static void appendTxt(File txtFile, String content) throws IOException{
    FileWriter writer = null;
    try{
      writer = new FileWriter(txtFile, true);
      writer.append(content);
    }finally{
      if(null!=writer)writer.close();
    }
  }

  /**
   * 换行符
   */
  static final String NEWLINE = System.getProperty("line.separator");

  /**
   * 书前的通用信息
   */
  static String COMMON = "------------------------------------------------------------------" + NEWLINE
                + "--------------- 书名:{book}" + NEWLINE
                + "--------------- 作者:{author}" + NEWLINE
                + "--------------- zhyea.com" + NEWLINE
                + "------------------------------------------------------------------" + NEWLINE;

}

以上就是小编为大家带来的Java实现一个小说采集程序的简单实例全部内容了,希望大家多多支持我们~

(0)

相关推荐

  • Java实现一个小说采集程序的简单实例

    被标题吸引进来的不要骂我. 只是一个简单的实现,随手写了来下载一部喜欢的小说的.示例中的小说只是示例,不是我的菜. 使用了jsoup.挺好用的一个工具. 有需要的话,参考下自己改吧.挺简单的,是吧. 代码如下: package com.zhyea.doggie; import java.io.File; import java.io.FileWriter; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.n

  • 纯Java实现数字证书生成签名的简单实例

    package com.ylsoft.cert; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.security.InvalidKeyException; import java.security.KeyPair; import java.security.KeyPairGenerator;

  • java从字符串中提取数字的简单实例

    随便给你一个含有数字的字符串,比如: String s="eert343dfg56756dtry66fggg89dfgf"; 那我们如何把其中的数字提取出来呢?大致有以下几种方法,正则表达式,集合类,还有就是String类提供的方法. 1 String类提供的方法: package 测试练习; import Java.util.*; public class get_StringNum { /** *2016.10.25 */ public static void main(Strin

  • Java File类的详解及简单实例

    Java File类的详解及简单实例 1. File():构造函数,一般是依据文件所在的指定位置来创建文件对象.  CanWrite():返回文件是否可写. CanRead():返回文件是否可读. CompareTo(File pathname):检查指定文件路径间的顺序. Delet():从文件系统内删除该文件. DeleteOnExit():程序顺利结束时从系统中删除文件. Equals(Object obj):检查特定对象的路径名是否相等. Exists():判断文件夹是否存在. GetA

  • javascript实现抽奖程序的简单实例

    昨天开年会的时候看到一个段子说唯品会年会抽奖,结果大奖都被写抽奖程序的部门得了,CTO现场review代码. 简单想了一下抽奖程序的实现,花了十几分钟写了一下,主要用到的知识有数组添加删除,以及ES5 数组新增的indexOf,filter方法, 为了刷新页面后仍能保存已中奖记录,用了localStorage存盘. 刚开始是用随机数直接取编号,发现要剔除已中奖的人很麻烦,如果重复要递归调用,如果中奖的人太多到最后随机数取到已中奖的人概率太大,所以换用两个数组实现,一个记录已中奖的号码,一个记录未

  • java StringBuilder类的详解及简单实例

     java  StringBuilder类的详解及简单实例 实现代码: public class StringBuilderTest { /** * @param args */ public static void main(String[] args) { StringBuilder sb = new StringBuilder(); // 追加字符串 sb.append("java");//sb = "java" // 插入 sb.insert(0 , &qu

  • Js调用Java方法并互相传参的简单实例

    Js通过PhoneGap调用Java方法并互相传参的. 一.JAVA代码 写一个类,该类继承自Plugin并重写execute方法. import org.json.JSONArray; import android.app.Activity; import android.app.AlertDialog; import android.content.ActivityNotFoundException; import android.content.DialogInterface; impor

  • java在文件尾部追加内容的简单实例

    如下所示: import java.io.FileWriter; import java.io.IOException; import java.io.RandomAccessFile; /** * 将内容追加到文件尾部. * @author haicheng.cao * */ public class AppendToFile { /** * A方法追加文件:使用RandomAccessFile */ public static void appendMethodA(String fileNa

  • 自定义一个异常类模板的简单实例

    一:自定义异常类: package 自定义异常; //或者继承RuntimeException(运行时异常) public class MyException extends Exception { private static final long serialVersionUID = 1L; // 提供无参数的构造方法 public MyException() { } // 提供一个有参数的构造方法 public MyException(String message) { super(mes

  • java  StringBuilder类的详解及简单实例

     java  StringBuilder类的详解及简单实例 实现代码: public class StringBuilderTest { /** * @param args */ public static void main(String[] args) { StringBuilder sb = new StringBuilder(); // 追加字符串 sb.append("java");//sb = "java" // 插入 sb.insert(0 , &qu

随机推荐