Java实现爬取往期所有双色球开奖结果功能示例

2025-04-16 20:58:33

本文实例讲述了Java实现爬取往期所有双色球开奖结果功能。分享给大家供大家参考，具体如下：

梦想还是要有的，万一实现了呢？我相信经常买双色球的朋友和我都会有一个疑问，就是往期双色球的开奖结果是什么？我钟意的这一注双色球在往期是否开过一等奖，如果开过的话，基本上可以放弃这一注了，因为历史上应该没有出现过两期双色球开奖完全一致的吧？那么往期的开奖结果是什么呢？我自己用Java写了一个简易的类，爬取所有双色球开奖结果，本来想开发安卓版本的，由于UI等需要时间准备，有缘再开发吧。

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.zip.GZIPInputStream;
public class AllBalls {
 private static StringBuffer mStringBuffer;
 public static void main(String[] args) {
  System.out.println("正在获取...");
  mStringBuffer = new StringBuffer();
  String baseUrlPrefix = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_";
  String baseUrlSuffix = ".html";
  String homeUrl = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html";
  String pageCountContent = getHtmlString(homeUrl);
  int pageCount = getPageCount(pageCountContent);
  if (pageCount > 0) {
   for (int i = 1; i <= pageCount; i++) {
    String url = baseUrlPrefix + i + baseUrlSuffix;
    String pageContent = getHtmlString(url);
    if (pageContent != null && !pageContent.equals("")) {
     getOneTermContent(pageContent);
    } else {
     System.out.println("第" + i + "页丢失");
    }
    try {
     Thread.sleep(1200);
    } catch (Exception e) {
     // TODO: handle exception
    }
   }
   File file = new File("双色球.txt");
   if (file.exists()) {
    file.delete();
   }
   try {
    FileWriter writer = new FileWriter(file);
    BufferedWriter bufferedWriter = new BufferedWriter(writer);
    bufferedWriter.write(mStringBuffer.toString());
    bufferedWriter.close();
    writer.close();
   } catch (IOException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
   }
   //BufferedWriter writer = new BufferedWriter(new OutputS)
  } else {
   System.out.println("结果页数为0");
  }
  System.out.println("完成！");
 }
 /**
  * 获取总页数
  * @param result
  */
 private static int getPageCount(String result) {
  String regex = "\\d+\">末页";
  Pattern pattern = Pattern.compile(regex);
  Matcher matcher = pattern.matcher(result);
  String[] splits = null;
  while (matcher.find()) {
   String content = matcher.group();
   splits = content.split("\"");
   break;
  }
  if (splits != null && splits.length == 2) {
   String countString = splits[0];
   if (countString != null && !countString.equals("")) {
    return Integer.parseInt(countString);
   }
  }
  return 0;
 }
  /**
  * 获取网页源码
  * @return
  */
 private static String getHtmlString(String targetUrl) {
  String content = null;
  HttpURLConnection connection = null;
  try {
   URL url = new URL(targetUrl);
   connection = (HttpURLConnection) url.openConnection();
   connection.setRequestMethod("POST");
   connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows 7)");
   connection.setRequestProperty("Accept", "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-powerpoint, application/vnd.ms-excel, application/msword, */*");
   connection.setRequestProperty("Accept-Language", "zh-cn");
   connection.setRequestProperty("UA-CPU", "x86");
   //为什么没有deflate呢
   connection.setRequestProperty("Accept-Encoding", "gzip");
   connection.setRequestProperty("Content-type", "text/html");
   //keep-Alive，有什么用呢，你不是在访问网站，你是在采集。嘿嘿。减轻别人的压力，也是减轻自己。
   connection.setRequestProperty("Connection", "close");
   //不要用cache，用了也没有什么用，因为我们不会经常对一个链接频繁访问。（针对程序）
   connection.setUseCaches(false);
   connection.setConnectTimeout(6 * 1000);
   connection.setReadTimeout(6 * 1000);
   connection.setDoOutput(true);
   connection.setDoInput(true);
   connection.setRequestProperty("Charset", "utf-8");
   connection.connect();
   if (200 == connection.getResponseCode()) {
    InputStream inputStream = null;
    if (connection.getContentEncoding() != null && !connection.getContentEncoding().equals("")) {
     String encode = connection.getContentEncoding().toLowerCase();
     if (encode != null && !encode.equals("") && encode.indexOf("gzip") >= 0) {
      inputStream = new GZIPInputStream(connection.getInputStream());
     }
    }
    if (null == inputStream) {
     inputStream = connection.getInputStream();
    }
    BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream, "utf-8"));
    StringBuilder builder = new StringBuilder();
    String line = null;
    while ((line = reader.readLine()) != null) {
     builder.append(line).append("\n");
    }
    content = builder.toString();
   }
  } catch (Exception e) {
   e.printStackTrace();
  } finally {
   if (connection != null) {
    connection.disconnect();
   }
  }
  return content;
 }
 private static void getOneTermContent(String pageContent) {
  String regex = "<td align=\"center\" style=\"padding-left:10px;\">[\\s\\S]+?</em></td>";
  Pattern pattern = Pattern.compile(regex);
  Matcher matcher = pattern.matcher(pageContent);
  while (matcher.find()) {
   String oneTermContent = matcher.group();
   getOneTermNumbers(oneTermContent);
  }
 }
 private static void getOneTermNumbers(String oneTermContent) {
  String regex = ">\\d+<";
  Pattern pattern = Pattern.compile(regex);
  Matcher matcher = pattern.matcher(oneTermContent);
  while (matcher.find()) {
   String content = matcher.group();
   String ballNumber = content.substring(1, content.length()-1);
   mStringBuffer.append(ballNumber).append(" ");
  }
  mStringBuffer.append("\r\n");
 }
}

运行结果：

更多关于java相关内容感兴趣的读者可查看本站专题：《Java网络编程技巧总结》、《Java Socket编程技巧总结》、《Java文件与目录操作技巧汇总》、《Java数据结构与算法教程》、《Java操作DOM节点技巧总结》和《Java缓存操作技巧汇总》

希望本文所述对大家java程序设计有所帮助。

java+selenium爬取图片签名的方法

本文实例为大家分享了java+selenium爬取图片签名的具体实现方法,供大家参考,具体内容如下学习记录: 1.注意对应的版本非常重要,使用selenium得下载与游览器版本相对应的插件,有火狐和谷歌我用的谷歌,贴下谷歌driver的插件查看谷歌版本: 2.插件存放路径 3.获取签名图片存放路径 4.Controller代码如下 @ResponseBody @RequestMapping(value = "signatureGenerationv") public String
java爬取并下载酷狗TOP500歌曲的方法

是这样的,之前买车送的垃圾记录仪不能用了,这两天狠心买了好点的记录仪,带导航.音乐.蓝牙.4G等功能,寻思,既然有这些功能就利用起来,用4G听歌有点奢侈,就准备去酷狗下点歌听,居然都是需要办会员才能下载,而且vip一月只能下载300首,我这么穷又这么抠怎么可能冲会员,于是百度搜了下怎么免费下载,都是python爬取,虽然也会一点,但是电脑上没安装python,再安装再研究感觉有点费劲,于是就花了半小时做了这个爬虫,技术一般,只记录分析实现过程,大牛请绕行.其中用到了一些库,包括:jsoup.Ht
Java 爬虫如何爬取需要登录的网站

这是 Java 网络爬虫系列博文的第二篇,在上一篇 Java 网络爬虫新手入门详解中,我们简单的学习了一下如何利用 Java 进行网络爬虫.在这一篇中我们将简单的聊一聊在网络爬虫时,遇到需要登录的网站,我们该怎么办? 在做爬虫时,遇到需要登陆的问题也比较常见,比如写脚本抢票之类的,但凡需要个人信息的都需要登陆,对于这类问题主要有两种解决方式:一种方式是手动设置 cookie ,就是先在网站上面登录,复制登陆后的 cookies ,在爬虫程序中手动设置 HTTP 请求中的 Cookie 属性,这
java通过Jsoup爬取网页过程详解

这篇文章主要介绍了java通过Jsoup爬取网页过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下一,导入依赖  <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.3</version> </depe
java实现爬取知乎用户基本信息

本文实例为大家分享了一个基于JAVA的知乎爬虫,抓取知乎用户基本信息,基于HttpClient 4.5,供大家参考,具体内容如下详细内容: 抓取90W+用户信息(基本上活跃的用户都在里面) 大致思路: 1.首先模拟登录知乎,登录成功后将Cookie序列化到磁盘,不用以后每次都登录(如果不模拟登录,可以直接从浏览器塞入Cookie也是可以的). 2.创建两个线程池和一个Storage.一个抓取网页线程池,负责执行request请求,并返回网页内容,存到Storage中.另一个是解析网页线程池,负
详解Java两种方式简单实现：爬取网页并且保存

对于网络,我一直处于好奇的态度.以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错误,就要调试很多时间,太浪费时间. 后来一想,既然早早给自己下了保证,就先实现它吧,从简单开始,慢慢增加功能,有时间就实现一个,并且随时优化代码. 下面是我简单实现爬取指定网页,并且保存的简单实现,其实有几种方式可以实现,这里慢慢添加该功能的几种实现方式. UrlConnection爬取实现 package html; import java.io.BufferedReader; i
java代理实现爬取代理IP的示例

仅仅使用了一个java文件,运行main方法即可,需要依赖的jar包是com.alibaba.fastjson(版本1.2.28)和Jsoup(版本1.10.2) 如果用了pom,那么就是以下两个: <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.28</version> </depe
Java爬取网站源代码和链接代码实例

1. 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件. 所以主要使用递归遍历完成对每个网页内链接的获取和源码的获取,然后剔除重复链接数据爬取后主要使用txt文件储存,根据网址的路径生成想应文件路径 2.代码 package com.test; import java.io.*; import java.
Java实现爬取往期所有双色球开奖结果功能示例

本文实例讲述了Java实现爬取往期所有双色球开奖结果功能.分享给大家供大家参考,具体如下: 梦想还是要有的,万一实现了呢?我相信经常买双色球的朋友和我都会有一个疑问,就是往期双色球的开奖结果是什么?我钟意的这一注双色球在往期是否开过一等奖,如果开过的话,基本上可以放弃这一注了,因为历史上应该没有出现过两期双色球开奖完全一致的吧?那么往期的开奖结果是什么呢?我自己用Java写了一个简易的类,爬取所有双色球开奖结果,本来想开发安卓版本的,由于UI等需要时间准备,有缘再开发吧. import java
Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能.分享给大家供大家参考,具体如下: python3爬虫之爬取百姓网列表并保存为json文件.这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手. 首先需要安装python3.如果还没有安装,可参考本站python3安装与配置相关文章. 首先需要安装requests和lxml和json三个模块需要手动创建d.json文件代码 import requests from lxml import etree
使用java技术抓取网站上彩票双色球信息详解

前言现在很多web应用,做过web项目的童鞋都知道,web结果由html+js+css组成,html结构都有一定的规范,数据动态交互可以通过js实现. 有些时候,需要抓取某一个你感兴趣的网站信息,一个网站信息肯定是通过某一个url,发送http请求,根据地址定位的,当知道这个地址,可以获取到很多的网络响应,需要认真分析,找到你那一个合适的地址,最后通过这个地址返回一个html给你,我们可以得到这个html,分析结构,解析这个结构获取你要的数据.Html的结构解析往往是复杂繁琐的,我们可以使用j
Java实现爬取百度图片的方法分析

本文实例讲述了Java实现爬取百度图片的方法.分享给大家供大家参考,具体如下: 在以往用java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库.现在我们有了JSOUP,以后的处理HTML的内容只需要使用JSOUP就已经足够了,JSOUP有更快的更新,更方便的API等. jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,
教你如何用Java简单爬取WebMagic

一.Java爬虫--WebMagic 1.1 WebMagic总体架构图 1.2 WebMagic核心组件 1.2.1 Downloader 该组件负责从互联网上下载页面.WebMagic默认使用Apache HttpClient作为下载工具. 1.2.2 PageProcessor 该组件负责解析页面,根据我们的业务进行抽取信息.WebMagic使用Jsoup作为HTML解析工具,并基于其开发了解析Xpath的工具Xsoup. 1.2.3 Scheduler 该组件负责管理待抓取的URL,以及
用Python爬取LOL所有的英雄信息以及英雄皮肤的示例代码

实现思路:分为两部分,第一部分,获取网页上数据并使用xlwt生成excel(当然你也可以选择保存到数据库),第二部分获取网页数据使用IO流将图片保存到本地一.爬取所有英雄属性并生成excel 1.代码 import json import requests import xlwt # 设置头部信息,防止被检测出是爬虫 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (
Python爬取百度翻译实现中英互译功能

目录基础步骤提交表单获取响应并处理结果消除警告 main.py sign.py 由于下学期报了一个Python的入门课程所以寒假一直在自己摸索,毕竟到时候不能挂科,也是水水学分最近心血来潮打算试试爬一下百度翻译肝了一天终于搞出来了话不多说,直接开搞(环境是Python 3.8 PyCharm Community Edition 2021.3.1) 基础步骤百度翻译会识别到爬虫,所以得用headers隐藏一下以chorme浏览器为例在百度翻译页面点击鼠标右键,选择“检查”(或
Java实现的不同图片居中剪裁生成同一尺寸缩略图功能示例

本文实例讲述了Java实现的不同图片居中剪裁生成同一尺寸缩略图功能.分享给大家供大家参考,具体如下: 因为业务需要,写了这样一个简单类,希望能帮助对有这方面需要的人,高手莫笑源码如下: package platform.edu.resource.utils; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import
Java基于JDBC实现事务，银行转账及货物进出库功能示例

本文实例讲述了Java基于JDBC实现事务,银行转账及货物进出库功能.分享给大家供大家参考,具体如下: 1. 转账业务转账必须执行2个sql语句(update更新)都成功的情况下,提交事务,如果有一个失败,则2个都回滚事务 2. 事务应该具有4个属性:原子性.一致性.隔离性.持久性.这四个属性通常称为ACID特性. ① 原子性(atomicity).一个事务是一个不可分割的工作单位,事务中包括的诸操作要么都做,要么都不做. ② 一致性(consistency).事务必须是使数据库从一个一致性状

Java实现爬取往期所有双色球开奖结果功能示例

相关推荐

随机推荐