使用java技术抓取网站上彩票双色球信息详解

2025-04-09 10:12:10

前言

现在很多web应用，做过web项目的童鞋都知道，web结果由html+js+css组成，html结构都有一定的规范，数据动态交互可以通过js实现。

有些时候，需要抓取某一个你感兴趣的网站信息，一个网站信息肯定是通过某一个url，发送http请求，根据地址定位的，当知道这个地址，可以获取到很多的网络响应，需要认真分析，找到你那一个合适的地址，最后通过这个地址返回一个html给你，我们可以得到这个html，分析结构，解析这个结构获取你要的数据。Html的结构解析往往是复杂繁琐的，我们可以使用java的支持包：jsoup，可以完成发送请求，解析html等功能，得到你感兴趣的数据。

下面就以一个彩票网站为例来简单说明整体操作流程，分为以下几大步骤：

根据官网，定位到自己感兴趣的模块：双色球
分析页面，找到它的入口地址
获取地址，使用jsoup发送请求，获取返回的Document对象
分析Document对象，获取感兴趣的数据

1：根据官网，定位到自己感兴趣的模块：双色球：

本人选择的500彩票网站：请根据以下步骤，找到双色球板块。

2：分析页面，找到它的入口地址

发现右侧有一个下拉选择框，这个是历史双色球开奖期号。改变这个值，浏览器会重新去请求这期的开奖信息，确定地址是：

http://kaijiang.500.com/shtml/ssq/选择期号.shtml

3：获取地址，使用jsoup发送请求，获取返回的Document对象

创建一个maven工程，导入jsoup的依赖：在你java类中，向2地址发送请求：获取返回的页面数据：

返回的html页面内容比较多，就不贴在这里的，下面直接对这个页面分析(特别说明，每一个html的结构不是一成不变的，有可能当读者看到这篇文章的时候，网站修改了网页结构，那么你需要重新分析，当然，估计这个网站修改网页结构的可能性比较小。。。。。。)

4：分析Document对象，获取感兴趣的数据

双色球由6个红球+1个篮球组成，通过分析网页，是通过class来表示的，网页源码如下：

通过以下代码，获取到6个红球：

同理，可以获取到1个篮球。

根据这个原理，你可以获取你想要的很多的数据：以下是本人获取的数据

以上是个人对java中简单抓取网页数据的分享，感兴趣的童鞋可以自己的实践一下，实践出真知。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Java爬虫实战抓取一个网站上的全部链接

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫. 一算法简介程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<String, Boolean>,键值对分别是链接和是否被遍历标志.程序中使用了两个Map集
Java爬虫抓取视频网站下载链接

本篇文章抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 一原理简介其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,如果不对这些标签加以取舍的话,需要花费的时间难以想象. 分类链接和标签链接都不要,不通过这些链接去爬取其他页面,只通过页底的
详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;
JAVA使用爬虫抓取网站网页内容的方法

本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法.分享给大家供大家参考.具体如下: 最近在用JAVA研究下爬网技术,呵呵,入了个门,把自己的心得和大家分享下以下提供二种方法,一种是用apache提供的包．另一种是用JAVA自带的. 代码如下: // 第一种方法 //这种方法是用apache提供的包,简单方便 //但是要用到以下包:commons-codec-1.4.jar // commons-httpclient-3.1.jar // commons-logging-1.0.4.jar
使用java技术抓取网站上彩票双色球信息详解

前言现在很多web应用,做过web项目的童鞋都知道,web结果由html+js+css组成,html结构都有一定的规范,数据动态交互可以通过js实现. 有些时候,需要抓取某一个你感兴趣的网站信息,一个网站信息肯定是通过某一个url,发送http请求,根据地址定位的,当知道这个地址,可以获取到很多的网络响应,需要认真分析,找到你那一个合适的地址,最后通过这个地址返回一个html给你,我们可以得到这个html,分析结构,解析这个结构获取你要的数据.Html的结构解析往往是复杂繁琐的,我们可以使用j
Java+swing实现抖音上的表白程序详解

目录 1.准备工作 2.界面窗体的设计与实现 3.对按钮加上监听事件 4.设置滚按钮的层级为最上面 5.为界面添加一首背景音乐 6.源代码带你手把手,用 java swing实现抖音上的表白程序 1.准备工作 a.需要下载一个带着swing插件的eclipse b.需要配置好JDK c.创建一个JFrame的项目(如下图所示的步骤) d.把资源文件放入与src所在的那个目录步骤如下: 1.先复制资源文件 2.粘贴文件 3.把jar文件放入Referenced Libraries文件夹下
用python爬取分析淘宝商品信息详解技术篇

目录背景介绍一.模拟登陆二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分析价格分布 5.分析销售地分布 6.词云分析写在最后 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是乎,闲来无事的我,又开始琢磨起这事- 一.模拟登陆兴致勃勃的我,冲进淘宝就准备一顿乱搜: 在搜索栏里填好关键词:&qu
golang如何实现抓取IP地址的蜘蛛程序详解

背景要做IP地址归属地查询,量比较大,所以想先从网上找到大部分的分配数据,写个蜘蛛程序来抓取入库,以后在程序的运行中不断进行维护.更新.完善. 一些关键点 goroutine的使用,让程序并行运行. 正则表达式分组信息提取的使用,正确的提取我们关注的信息. 数据库批量插入操作. 数据库批量更新操作. 代码解析按功能模块对核心代码进行说明 ip.go 主进程,实现goroutine的调用. func main() { //利用go基本库封装的网页抓取函数,后面有说明 ctx := common
php抓取页面的几种方法详解

在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来.下面简单说一下php抓取页面的几种方法及原理:一. PHP抓取页面的主要方法:1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式
PHP抓取及分析网页的方法详解

本文实例讲述了PHP抓取及分析网页的方法.分享给大家供大家参考,具体如下: 抓取和分析一个文件是非常简单的事.这个教程将通过一个例子带领你一步一步地去实现它.让我们开始吧! 首先,我首必须决定我们将抓取的URL地址.可以通过在脚本中设定或通过$QUERY_STRING传递.为了简单起见,让我们将变量直接设在脚本中. <?php $url = 'http://www.php.net'; ?> 第二步,我们抓取指定文件,并且通过file()函数将它存在一个数组里. <?php $url =
java如何根据IP获取当前区域天气信息详解

大致思路是客户端发起请求,我们首先根据请求获取到外网IP,然后再根据外网IP获取到用户所在城市,最后根据城市获取到天气信息获取外网IP 万网获取外网IP地址:www.net.cn/static/cust- /** * @Description:获取客户端外网ip 此方法要接入互联网才行,内网不行 **/ public static String getPublicIp() { try { String path = "http://www.net.cn/static/customercare/
Python 50行爬虫抓取并处理图灵书目过程详解

前言使用 requests进行爬取.BeautifulSoup进行数据提取. 主要分成两步: 第一步是解析图书列表页,并解析出里面的图书详情页链接. 第二步是解析图书详情页,提取出感兴趣的内容,本例中根据不同的数据情况,采用了不同的提取方法,总的感觉就是BeautifulSoup用起来很方便以下是几个典型HTML内容提取的Python代码片段 1.提取详情页链接列表页中的详情页链接片段 <h4 class="name"> <a href="/book/
java使用枚举封装错误码及错误信息详解

目录枚举封装错误码及错误信息用法如下封装返回结果类和枚举错误码枚举错误码封装返回结果类枚举封装错误码及错误信息使用枚举类型来封装project中所需要的错误码和错误信息,十分方便. 用法如下 package com.dear.simpler.dbservice; /** * * @author lixiang *使用枚举类型来封装异常码和异常信息 * */ public enum DBServiceError { //RPC层调用错误码 DB_SERVICE_OK(20100,"服

使用java技术抓取网站上彩票双色球信息详解

相关推荐

随机推荐