一篇文章教会你使用java爬取想要的资源

2025-04-21 02:36:43

说明

简介: 你还在为想要的资源而获取不到而烦劳吗？你还在为你不会python而爬取不到资源而烦劳吗？没关系，看完我这一篇文章你就会学会用java爬取资源，从此不会因此而烦劳，下面我会以爬取京东物品来进行实战演示！！！

方法摘要

方法	方法说明
adoptNode(Node source)	试图把另一文档中的节点采用到此文档。
createAttribute(String name)	创建指定名称的Attr
createCDATASection(String data)	创建其值为指定字符串的 CDATASection 节点。
createComment(String data)	创建给定指定字符串的 Comment 节点。
createDocumentFragment()	创建空 DocumentFragment 对象。
createElement(String tagName)	创建指定类型的元素。
createElementNS(String namespaceURI, String qualifiedName)	创建给定的限定名称和名称空间 URI 的元素。
createEntityReference(String name)	创建 EntityReference 对象。
createProcessingInstruction(String target, String data)	创建给定指定名称和数据字符串的 ProcessingInstruction 节点。
createTextNode(String data)	创建给定指定字符串的 Text 节点。
getDoctype()	与此文档相关的文档类型声明（参见 DocumentType）。
getDocumentElement()	这是一种便捷属性，该属性允许直接访问文档的文档元素的子节点。
getDocumentURI()	文档的位置，如果未定义或 Document 是使用 DOMImplementation.createDocument 创建的，则为 null。
getDomConfig()	调用 Document.normalizeDocument() 时使用的配置。
getElementsByTagName(String tagname)	按文档顺序返回包含在文档中且具有给定标记名称的所有 Element 的 NodeList。
getElementById(String elementId)	返回具有带给定值的 ID 属性的 Element。
getElementsByTagNameNS(String namespaceURI, String localName)	以文档顺序返回具有给定本地名称和名称空间 URI 的所有 Elements 的 NodeList。
getImplementation()	处理此文档的 DOMImplementation 对象。
getInputEncoding()	指定解析时此文档使用的编码的属性。
getStrictErrorChecking()	指定是否强制执行错误检查的属性。
getXmlEncoding()	作为 XML 声明的一部分，指定此文档编码的属性。
getXmlStandalone()	作为 XML 声明的一部分，指定此文档是否为独立文档的属性。
getXmlVersion()	作为 XML 声明的一部分指定此文档版本号的属性。
importNode(Node importedNode, boolean deep)	从另一文档向此文档导入节点，而不改变或移除原始文档中的源节点；此方法创建源节点的一个新副本。
normalizeDocument()	此方法的行为如同使文档通过一个保存和加载的过程，而将其置为 “normal（标准）” 形式。
renameNode(Node n, String namespaceURI, String qualifiedName)	重命名 ELEMENT_NODE 或 ATTRIBUTE_NODE 类型的现有节点。
setDocumentURI(String documentURI)	//文档的位置，如果未定义或 Document 是使用 DOMImplementation.createDocument 创建的，则为 null。
setStrictErrorChecking(boolean strictErrorChecking)	指定是否强制执行错误检查的属性。
setXmlStandalone(boolean xmlStandalone)	作为 XML 声明的一部分指定此文档是否是单独的的属性。
setXmlVersion(String xmlVersion)	作为 XML 声明的一部分指定此文档版本号的属性。

常用的Element节点方法

得到文档的根节点.

Element element = document.getRootElement();

得到某节点的单个子节点

Element element =root.element("node");

得到某节点下的所有子节点并进行遍历

List nodes = rootElm.elements("node");
for (Iterator it = nodes.iterator(); it.hasNext();) {
  Element element = (Element) it.next();
}

在某个节点下添加子节点

Element element = newElement.addElement("node");

删除某个节点

Element element = parentElement.remove(childElement);

设置节点的文字

ageElm.setText("20");

添加一个CDATA节点

Element element = infoElement.addElement("content");
element .addCDATA(diary.getContent());

实战：爬取B站番剧

Maven

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

代码

步骤

1.打开控制台检查网页的结构

2.逐步分析哪些内容在哪个标签下，找到该内容的class或id

比如此处我们要找到 bang_itme 这个class，然后在找它下面的其他class或者id

3.完整代码如下

public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        new HtmlParseUtil().myAnime("柯南");
    }

    public void myAnime(String keyWorks) throws IOException {
        String encode = URLEncoder.encode(keyWorks, "UTF-8");
        String url = "https://search.bilibili.com/all?keyword="+encode+"&from_source=web_search"; // 搜索地址
        Document document = Jsoup.parse(new URL(url), 30000);
        Elements elements = document.getElementsByClass("bangumi-item");
        for (Element element : elements) {
            Elements link = element.getElementsByClass("left-img");
            System.out.println(link.attr("href").split("//")[1]);
            System.out.println(element.getElementsByClass("title").attr("title"));
            System.out.println(element.getElementsByClass("desc").text());
        }
    }
}

4.执行结果

到此这篇关于一篇文章教会你使用java爬取想要的资源的文章就介绍到这了,更多相关java爬取资源内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Java爬虫抓取视频网站下载链接

本篇文章抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 一原理简介其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,如果不对这些标签加以取舍的话,需要花费的时间难以想象. 分类链接和标签链接都不要,不通过这些链接去爬取其他页面,只通过页底的
零基础写Java知乎爬虫之抓取知乎答案

前期我们抓取标题是在该链接下: http://www.zhihu.com/explore/recommendations 但是显然这个页面是无法获取答案的. 一个完整问题的页面应该是这样的链接: http://www.zhihu.com/question/22355264 仔细一看,啊哈我们的封装类还需要进一步包装下,至少需要个questionDescription来存储问题描述: import java.util.ArrayList;public class Zhihu { public St
java实现简单的爬虫之今日头条

前言需要提前说下的是,由于今日头条的文章的特殊性,所以无法直接获取文章的地址,需要获取文章的id然后在拼接成url再访问.下面话不多说了,直接上代码. 示例代码如下 public class Demo2 { public static void main(String[] args) { // 需要爬的网页的文章列表 String url = "http://www.toutiao.com/news_finance/"; //文章详情页的前缀(由于今日头条的文章都是在group这个目
java爬虫Gecco工具抓取新闻实例

最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象.抓取HTML节点通过像Jquery选择器一样选择节点,非常方便,Gecco代码主要利用注解实现来实现URL匹配,看起来比较简洁美观. 添加Maven依赖 <dependency> <groupId>com.geccocrawler</groupId> <artifactId&
Java爬虫实战抓取一个网站上的全部链接

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫. 一算法简介程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<String, Boolean>,键值对分别是链接和是否被遍历标志.程序中使用了两个Map集
Java实现的爬虫抓取图片并保存操作示例

本文实例讲述了Java实现的爬虫抓取图片并保存操作.分享给大家供大家参考,具体如下: 这是我参考了网上一些资料写的第一个java爬虫程序本来是想获取煎蛋网无聊图的图片,但是网络返回码一直是503,所以换了网站 import java.io.BufferedReader; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.InputStre
零基础写Java知乎爬虫之将抓取的内容存储到本地

说到Java的本地存储,肯定使用IO流进行操作. 首先,我们需要一个创建文件的函数createNewFile: 复制代码代码如下: public static boolean createNewFile(String filePath) { boolean isSuccess = true; // 如有则将"\\"转为"/",没有则不产生任何变化 String filePathTurn = filePath.r
java正则表达式简单使用和网页爬虫的制作代码

正则表达式是一种专门用于对字符串的操作的规则. 1.在String类中就有一些方法是对字符串进行匹配,切割. 判断字符串是否与给出的正则表达式匹配的:boolean matches( String regex); 按照给定的正则表达式对字符串进行切割的:String[] split(String regex); 将符合正则表达式的字符串替换成我们想要的其他字符串:String replaceAll(String regex,String replacement) 2.下面介绍一下正则表
基于Java HttpClient和Htmlparser实现网络爬虫代码

开发环境的搭建,在工程的 Build Path 中导入下载的Commons-httpClient3.1.Jar,htmllexer.jar 以及 htmlparser.jar 文件. 图 1. 开发环境搭建 HttpClient 基本类库使用 HttpClinet 提供了几个类来支持 HTTP 访问.下面我们通过一些示例代码来熟悉和说明这些类的功能和使用. HttpClient 提供的 HTTP 的访问主要是通过 GetMethod 类和 PostMethod 类来实现的,他们分别对应了 HTT
JAVA使用爬虫抓取网站网页内容的方法

本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法.分享给大家供大家参考.具体如下: 最近在用JAVA研究下爬网技术,呵呵,入了个门,把自己的心得和大家分享下以下提供二种方法,一种是用apache提供的包．另一种是用JAVA自带的. 代码如下: // 第一种方法 //这种方法是用apache提供的包,简单方便 //但是要用到以下包:commons-codec-1.4.jar // commons-httpclient-3.1.jar // commons-logging-1.0.4.jar

一篇文章教会你使用java爬取想要的资源

目录

说明

方法摘要

常用的Element节点方法

实战：爬取B站番剧

Maven

代码

相关推荐

随机推荐