使用java技术抓取网站上彩票双色球信息详解
前言
现在很多web应用,做过web项目的童鞋都知道,web结果由html+js+css组成,html结构都有一定的规范,数据动态交互可以通过js实现。
有些时候,需要抓取某一个你感兴趣的网站信息,一个网站信息肯定是通过某一个url,发送http请求,根据地址定位的,当知道这个地址,可以获取到很多的网络响应,需要认真分析,找到你那一个合适的地址,最后通过这个地址返回一个html给你,我们可以得到这个html,分析结构,解析这个结构获取你要的数据。Html的结构解析往往是复杂繁琐的,我们可以使用java的支持包:jsoup,可以完成发送请求,解析html等功能,得到你感兴趣的数据。
下面就以一个彩票网站为例来简单说明整体操作流程,分为以下几大步骤:
- 根据官网,定位到自己感兴趣的模块:双色球
- 分析页面,找到它的入口地址
- 获取地址,使用jsoup发送请求,获取返回的Document对象
- 分析Document对象,获取感兴趣的数据
1:根据官网,定位到自己感兴趣的模块:双色球:
本人选择的500彩票网站:请根据以下步骤,找到双色球板块。
2:分析页面,找到它的入口地址
发现右侧有一个下拉选择框,这个是历史双色球开奖期号。改变这个值,浏览器会重新去请求这期的开奖信息,确定地址是:
http://kaijiang.500.com/shtml/ssq/选择期号.shtml
3:获取地址,使用jsoup发送请求,获取返回的Document对象
创建一个maven工程,导入jsoup的依赖:在你java类中,向2地址发送请求:获取返回的页面数据:
返回的html页面内容比较多,就不贴在这里的,下面直接对这个页面分析(特别说明,每一个html的结构不是一成不变的,有可能当读者看到这篇文章的时候,网站修改了网页结构,那么你需要重新分析,当然,估计这个网站修改网页结构的可能性比较小。。。。。。)
4:分析Document对象,获取感兴趣的数据
双色球由6个红球+1个篮球组成,通过分析网页,是通过class来表示的,网页源码如下:
通过以下代码,获取到6个红球:
同理,可以获取到1个篮球。
根据这个原理,你可以获取你想要的很多的数据:以下是本人获取的数据
以上是个人对java中简单抓取网页数据的分享,感兴趣的童鞋可以自己的实践一下,实践出真知。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。
相关推荐
-
Java爬虫实战抓取一个网站上的全部链接
前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫. 一 算法简介 程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<String, Boolean>,键值对分别是链接和是否被遍历标志.程序中使用了两个Map集
-
JAVA使用爬虫抓取网站网页内容的方法
本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法.分享给大家供大家参考.具体如下: 最近在用JAVA研究下爬网技术,呵呵,入了个门,把自己的心得和大家分享下 以下提供二种方法,一种是用apache提供的包.另一种是用JAVA自带的. 代码如下: // 第一种方法 //这种方法是用apache提供的包,简单方便 //但是要用到以下包:commons-codec-1.4.jar // commons-httpclient-3.1.jar // commons-logging-1.0.4.jar
-
详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;
-
Java爬虫抓取视频网站下载链接
本篇文章抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 一 原理简介 其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,如果不对这些标签加以取舍的话,需要花费的时间难以想象. 分类链接和标签链接都不要,不通过这些链接去爬取其他页面,只通过页底的
-
使用java技术抓取网站上彩票双色球信息详解
前言 现在很多web应用,做过web项目的童鞋都知道,web结果由html+js+css组成,html结构都有一定的规范,数据动态交互可以通过js实现. 有些时候,需要抓取某一个你感兴趣的网站信息,一个网站信息肯定是通过某一个url,发送http请求,根据地址定位的,当知道这个地址,可以获取到很多的网络响应,需要认真分析,找到你那一个合适的地址,最后通过这个地址返回一个html给你,我们可以得到这个html,分析结构,解析这个结构获取你要的数据.Html的结构解析往往是复杂繁琐的,我们可以使用j
-
Java+swing实现抖音上的表白程序详解
目录 1.准备工作 2.界面窗体的设计与实现 3.对按钮加上监听事件 4.设置滚按钮的层级为最上面 5.为界面添加一首背景音乐 6.源代码 带你手把手,用 java swing实现抖音上的表白程序 1.准备工作 a.需要下载一个带着swing插件的eclipse b.需要配置好JDK c.创建一个JFrame的项目(如下图所示的步骤) d.把资源文件放入与src所在的那个目录 步骤如下: 1.先复制资源文件 2.粘贴文件 3.把jar文件放入Referenced Libraries文件夹下
-
用python爬取分析淘宝商品信息详解技术篇
目录 背景介绍 一.模拟登陆 二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取 三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分析价格分布 5.分析销售地分布 6.词云分析 写在最后 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是乎,闲来无事的我,又开始琢磨起这事- 一.模拟登陆 兴致勃勃的我,冲进淘宝就准备一顿乱搜: 在搜索栏里填好关键词:&qu
-
golang如何实现抓取IP地址的蜘蛛程序详解
背景 要做IP地址归属地查询,量比较大,所以想先从网上找到大部分的分配数据,写个蜘蛛程序来抓取入库,以后在程序的运行中不断进行维护.更新.完善. 一些关键点 goroutine的使用,让程序并行运行. 正则表达式分组信息提取的使用,正确的提取我们关注的信息. 数据库批量插入操作. 数据库批量更新操作. 代码解析 按功能模块对核心代码进行说明 ip.go 主进程,实现goroutine的调用. func main() { //利用go基本库封装的网页抓取函数,后面有说明 ctx := common
-
php抓取页面的几种方法详解
在 做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来.下面简单说一下php抓取页面的几种方法及原理:一. PHP抓取页面的主要方法:1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式
-
PHP抓取及分析网页的方法详解
本文实例讲述了PHP抓取及分析网页的方法.分享给大家供大家参考,具体如下: 抓取和分析一个文件是非常简单的事.这个教程将通过一个例子带领你一步一步地去实现它.让我们开始吧! 首先,我首必须决定我们将抓取的URL地址.可以通过在脚本中设定或通过$QUERY_STRING传递.为了简单起见,让我们将变量直接设在脚本中. <?php $url = 'http://www.php.net'; ?> 第二步,我们抓取指定文件,并且通过file()函数将它存在一个数组里. <?php $url =
-
java如何根据IP获取当前区域天气信息详解
大致思路是客户端发起请求,我们首先根据请求获取到外网IP,然后再根据外网IP获取到用户所在城市,最后根据城市获取到天气信息 获取外网IP 万网获取外网IP地址:www.net.cn/static/cust- /** * @Description:获取客户端外网ip 此方法要接入互联网才行,内网不行 **/ public static String getPublicIp() { try { String path = "http://www.net.cn/static/customercare/
-
Python 50行爬虫抓取并处理图灵书目过程详解
前言 使用 requests进行爬取.BeautifulSoup进行数据提取. 主要分成两步: 第一步是解析图书列表页,并解析出里面的图书详情页链接. 第二步是解析图书详情页,提取出感兴趣的内容,本例中根据不同的数据情况,采用了不同的提取方法,总的感觉就是BeautifulSoup用起来很方便 以下是几个典型HTML内容提取的Python代码片段 1.提取详情页链接 列表页中的详情页链接片段 <h4 class="name"> <a href="/book/
-
java使用枚举封装错误码及错误信息详解
目录 枚举封装错误码及错误信息 用法如下 封装返回结果类和枚举错误码 枚举错误码 封装返回结果类 枚举封装错误码及错误信息 使用枚举类型来封装project中所需要的错误码和错误信息,十分方便. 用法如下 package com.dear.simpler.dbservice; /** * * @author lixiang *使用枚举类型来封装异常码和异常信息 * */ public enum DBServiceError { //RPC层调用错误码 DB_SERVICE_OK(20100,"服
随机推荐
- AngularJS中监视Scope变量以及外部调用Scope方法
- 在for循环中length值是否需要缓存
- Java发送邮件javax.mail的实现方法
- java验证码生成的基本流程
- Java Web基于Session的登录实现方法
- ASP.NET MVC5网站开发用户登录、注销(五)
- Activiti-Explorer使用sql server数据库实现方法
- java-流的使用完结与异常处理机制(详解)
- c#3.0实现延迟赋值示例
- JavaScript操作XML实例代码(获取新闻标题并分页,并分页)
- JavaScript中实现异步编程模式的4种方法
- C#中的委托介绍
- 在VPS上用3Proxy架设http代理和socks代理(Ubuntu环境)
- React创建组件的三种方式及其区别
- 关于UTF-8的客户端用AJAX方式获取GB2312的服务器端乱码问题的解决办法
- 缓冲区溢出:十年来攻击和防卫的弱点
- 浅谈C++中派生类对象的内存布局
- 15个小时----从修改程序到自己些程序
- 使用javascript:将其它类型值转换成布尔类型值的解决方法详解
- 详解PHP中的状态模式编程