node.js爬取中关村的在线电瓶车信息

2025-02-06 12:03:10

背景

学习nodejs已经有段时间，网上很多nodejs爬虫的文章，所以着手练习写一段，最近打算买一辆电瓶车来上下班，但又不知道哪个好，网上是各说纷纭啊，于是就想着，干脆用node.js自己写一个小爬虫，来爬一下中关村在线里面电瓶车的信息吧。

简介

该demo采用node.js作为爬虫，为方便，有些地方使用es6语法，如有不懂，欢迎咨询😊

步骤

第一步，引入需要的库

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一个类似浏览器端的jQuery，用来解析HTML的
// fetch 用来发送请求

第二步，设置初始的爬取的入口(我身处杭州，所以地区选了杭州的🤣)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每个a标签下是相对路径，故需要一个根地址来拼接，如下
var urlRoot = "http://detail.zol.com.cn"
// 存放所有url，之所以用set，是为了防止有相同的而重复爬去
var urls = new Set()
// 存储所有数据
var data = []

至此，我们的准备部分结束了😅，接下来，开始表演了

分析网页，思考爬取的方式

每行4款，每页是48款，一共16页

思路：

每次获取当前页48个链接，并点进去之后，拿到该电瓶车的名称和价格（其他信息获取方式一样，自行改就好😂）
第一页的全部完成之后，翻到下一页，继续爬，直到最后一页结束

首先我们定义一个函数如下

// 这是得到每个页面的48个链接，并开始发送请求

function ad(arg){
// 参数 arg 先不管
// 本地化一下需要爬取的链接
let url2 = arg || url;
// 请求第一页该网页，拿到数据之后，复制给 app
var app = await fetch(url2).then(res=>res.text())
// 然后假装用jQuery解析了
var $ = cheerio.load(app)
// 获取当前页所有电瓶车的a标签
var ele = $("#J_PicMode a.pic")
// 存放已经爬取过的url，防止重复爬取
var old_urls = []
var urlapp = []
//拿到所有a标签地址之后，存在数组里面，等会儿要开始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一块丢给promise处理
urlapp = await Promise.all(old_urls)
// 处理完成之后，循环加入jQuery😂
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此，一页的数据就爬完了
// console.log(data);

// 然后开始爬取下一页
var nextURL = $(".next").attr('href')
// 判断当前页是不是最后一页
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 获取下一页的标签，拿到地址，走你
ad(urlRoot+nextURL)
}
return data
}
ad()

完整代码如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = []
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}

var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

手把手教你用Node.js爬虫爬取网站数据的方法

开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请看一下安装教程...... https://www.jb51.net/article/113677.htm https://www.jb51.net/article/57687.htm 直接开始吧 1.在项目文件夹安装两个必须的依赖包 npm install superagent --save-dev SuperAgent(官网是这样解释的) -----SuperAgent is light-weight progressive
利用node.js爬取指定排名网站的JS引用库详解

前言本文给大家介绍的爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库.下面话不多说了,来一起看看详细的介绍: 所用到的node主要模块 express 不用多说 request http模块 cheerio 运行在服务器端的jQuery node-inspector node调试模块 node-dev 修改文件后自动重启app 关于调试Node 在任意一个文件夹,执行node-inspector,通过打开特定页面,在页面上进行调试,然后运行app
Node.js爬取豆瓣数据实例分析

一直自以为自己vue还可以,一直自以为webpack还可以,今天在慕课逛node的时候,才发现,自己还差的很远.众所周知,vue-cli基于webpack,而webpack基于node,对node不了解,谈什么了解webpack.所以就自己给自己出了一道题,爬取豆瓣数据,目前还处于初级阶段.今天就浅谈爬取到豆瓣的数据,再另一个页面用自己的方式展现,后续会跟进. 1.需要解决的问题搭建服务怎么处理爬到的数据怎么自动打开默认浏览器 2.搭建服务搭建服务有好几种方式,一开始我用的http,但是
如何使用Node.js爬取任意网页资源并输出PDF文件到本地

需求: 使用Node.js爬取网页资源,开箱即用的配置将爬取到的网页内容以PDF格式输出如果你是一名技术人员,那么可以看我接下来的文章,否则,请直接移步到我的github仓库,直接看文档使用即可仓库地址:附带文档和源码本需求使用到的技术:Node.js和puppeteer puppeteer 官网地址: puppeteer地址 Node.js官网地址:链接描述 Puppeteer是谷歌官方出品的一个通过DevTools协议控制headless Chrome的Node库.可以通过Puppe
node.js爬虫爬取拉勾网职位信息

简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Android.ios作为关键词进行爬取,爬到的数据以json格式储存到本地,为了方便观察,我将数据整理了一下供大家参考数据结果上述数据为3月13日22时爬取的数据,可大致反映各个城市对不同语言的需求量. 爬取过程展示控制并发进行爬取爬取到的数据文件 json数据文件爬虫程序实现思路请求拉钩网的
利用node.js写一个爬取知乎妹纸图的小爬虫

前言说起写node爬虫的原因,真是羞羞呀.一天,和往常一样,晚上吃过饭便刷起知乎来,首页便是推荐的你见过最漂亮的女生长什么样?,点进去各种漂亮的妹纸爆照啊!!!,看的我好想把这些好看的妹纸照片都存下来啊!一张张点击保存,就在第18张得时候,突然想起.我特么不是程序员么,这种手动草做的事,怎么能做,不行我不能丢程序员的脸了,于是便开始这次爬虫之旅. 原理初入爬虫的坑,没有太多深奥的理论知识,要获取知乎上帖子中的一张图片,我把它归结为以下几步. 准备一个url(当然是诸如你见过最漂亮的女生长什么
node.js爬取中关村的在线电瓶车信息

背景学习nodejs已经有段时间,网上很多nodejs爬虫的文章,所以着手练习写一段,最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧. 简介该demo采用node.js作为爬虫,为方便,有些地方使用es6语法,如有不懂,欢迎咨询
ajax+node+request爬取网络图片的实例(宅男福利)

注:本文只讨论技术不涉及商业,如有侵权请告知,未经本人同意转载后果自负! 本文是通过浏览器端ajax,node端request-json进行爬取"尤果网"部分图片资源,纯属技术方面兴趣,不涉及商业方面: 先上图: 如果没有node基础请自行学习~ 获取图片原理:通过request请求html文件,利用正则匹配图片路径获取到当前页面图片的数组,发送到浏览器端,进行展示: 1.安装request-json (cnpm i request-json --save) 2.安装express(c
Node.js抓取中文网页乱码问题和解决方法

Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码复制代码代码如下: var request = require('request') var url = 'http://www.163.com' request(url, function (err, res, body) { console.log(body) }) 可以使用 iconv-lite来解决安装复制代码代码如下: npm install ico
Node.js+Socket.io实现双人在线五子棋对战

本文实例为大家分享了Node.js+Socket.io实现双人在线五子棋对战的具体代码,供大家参考,具体内容如下笔者建议读者在尝试写程序之前要先确保电脑已经安装了Node.js和NPM,一般两者都是在一块安装,五子棋程序的服务器端使用Node.js写的,不多说了,直接上代码. 服务器端代码:socket.js var app = require('http').createServer(handler) var io = require('socket.io')(app); var fs =
python爬取亚马逊书籍信息代码分享

我有个需求就是抓取一些简单的书籍信息存储到mysql数据库,例如,封面图片,书名,类型,作者,简历,出版社,语种. 我比较之后,决定在亚马逊来实现我的需求. 我分析网站后发现,亚马逊有个高级搜索的功能,我就通过该搜索结果来获取书籍的详情URL. 由于亚马逊的高级搜索是用get方法的,所以通过分析,搜索结果的URL,可得到node参数是代表书籍类型的.field-binding_browse-bin是代表书籍装饰. 所以我固定了书籍装饰为平装,而书籍的类型,只能每次运行的时候,爬取一种类型的书籍难
使用python爬取抖音视频列表信息

如果看到特别感兴趣的抖音vlogger的视频,想全部dump下来,如何操作呢?下面介绍介绍如何使用python导出特定用户所有视频信息抓包分析 Chrome Deveploer Tools Chrome 浏览器开发者工具在抖音APP端,复制vlogger主页地址, 比如: http://v.douyin.com/kGcU4y/ , 在PC端用chrome浏览器打卡,并模拟手机,这里选择iPhone, 然后把复制的主页地址,放到浏览器进行访问,页面跳转到 https://www.iesdouy
用python爬取分析淘宝商品信息详解技术篇

目录背景介绍一.模拟登陆二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分析价格分布 5.分析销售地分布 6.词云分析写在最后 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是乎,闲来无事的我,又开始琢磨起这事- 一.模拟登陆兴致勃勃的我,冲进淘宝就准备一顿乱搜: 在搜索栏里填好关键词:&qu

node.js爬取中关村的在线电瓶车信息

相关推荐

随机推荐