浅谈Node.js爬虫之网页请求模块

2025-04-06 05:32:30

本文介绍了Node.js爬虫之网页请求模块，分享给大家，具体如下：

注：如您下载最新的nodegrass版本，由于部分方法已经更新，本文的例子已经不再适应，详细请查看开源地址中的例子。

一、为什么我要写这样一个模块？

源于笔者想使用Node.js写一个爬虫，虽然Node.js官方API提供的请求远程资源的方法已经非常简便，具体参考

http://nodejs.org/api/http.html 其中对于Http的请求提供了，http.get(options, callback)和http.request(options, callback)两个方法，

看方法便知，get方法用于get方式的请求，而request方法提供更多的参数，例如其它请求方式，请求主机的端口等等。对于Https的请求于Http类似。一个最简单的例子：

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});

对于以上代码，我们无非就是想请求远程主机，得到响应信息，例如响应状态，响应头，响应主体内容。其中get方法的第二个参数是一个回调函数，我们异步的获取响应信息，然后，在该回调函数中，res对象又监听data，on方法中第二个参数又是一个回调，而你得到d（你请求到的响应信息）后，很可能在对它进行操作的时候再次引入回调，一层层下去，最后就晕了。。。对于异步方式的编程，对于一些习惯同步方式写代码的同学是非常纠结的，当然国内外已经对此提供了一些非常优秀的同步类库，例如老赵的Wind.js......好像有点扯远了。其实，我们调用get最终要得到的无非就是响应信息，而不关心res.on这样的监听过程，因为太懒惰。不想每次都res.on('data',func)，于是诞生了今天我要介绍的nodegrass。

二、nodegrass请求资源，像Jquery的$.get(url,func)

一个最简单的例子：

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});

咋一看，和官方原来的get没啥区别，确实差不多=。=！只不过少了一层res.on('data',func)的事件监听回调而已。不管你信不信，反正我看上去感觉舒服多了，第二个参数同样是一个回调函数，其中的参数data是响应主体内容，status是响应状态，headers是响应头。得到响应内容，我们就可以对得到的资源提取任何我们感兴趣的信息啦。当然这个例子中，只是简单的打印的控制台而已。第三个参数是字符编码，目前Node.js不支持gbk，这里nodegrass内部引用了iconv-lite进行了处理，所以，如果你请求的网页编码是gbk的，例如百度。只需加上这个参数就行了。

那么对于https的请求呢？如果是官方api，你得引入https模块，但是请求的get方法等和http类似，于是nodegrass顺便把他们整合在一块了。看例子：

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});

nodegrass会根据url自动识别是http还是https，当然你的url必须得有，不能只写www.baidu.com/而需要http://www.baidu.com/。

对于post的请求，nodegrass提供了post方法，看例子：

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');

以上是新浪微博Auth2.0请求accessToken的一部分，其中使用nodegrass的post请求access_token的api。

post方法相比get方法多提供了headers请求头参数，options--post的数据，它们都是对象字面量的类型：

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };

三、利用nodegrass做代理服务器？……**

看例子：

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;

    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');

就这么简单，当然代理服务器还有复杂的多，这个不算是，但至少你访问本地8088端口，看到的是不是博客园的页面呢？

nodegrass的开源地址：https://github.com/scottkiss/nodegrass

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

您可能感兴趣的文章:

Node.js 利用cheerio制作简单的网页爬虫示例
使用 Node.js 开发资讯爬虫流程
Node.js+jade+mongodb+mongoose实现爬虫分离入库与生成静态文件的方法
基于node.js制作简单爬虫教程
利用node.js写一个爬取知乎妹纸图的小爬虫
node.js爬虫爬取拉勾网职位信息
从零学习node.js之简易的网络爬虫（四）
Node.js 实现简单小说爬虫实例
node.js实现博客小爬虫的实例代码
Node.js爬取豆瓣数据实例分析

从零学习node.js之简易的网络爬虫（四）

前言之前已经介绍了node.js的一些基本知识,下面这篇文章我们的目标是学习完本节课程后,能进行网页简单的分析与抓取,对抓取到的信息进行输出和文本保存. 爬虫的思路很简单: 确定要抓取的URL: 对URL进行抓取,获取网页内容: 对内容进行分析并存储: 重复第1步在这节里做爬虫,我们使用到了两个重要的模块: request : 对http进行封装,提供更多.更方便的接口供我们使用,request进行的是异步请求.更多信息可以去这篇文章上进行查看 cheerio : 类似于jQuery,可以使
Node.js 利用cheerio制作简单的网页爬虫示例

本文介绍了Node.js 利用cheerio制作简单的网页爬虫示例,分享给大家,具有如下: 1. 目标完成对网站的标题信息获取将获取到的信息输出在一个新文件工具: cheerio,使用npm下载npm install cheerio cheerio的API使用方法和jQuery的使用方法基本一致如果熟练使用jQuery,那么cheerio将会很快上手 2. 代码部分介绍: 获取segment fault页面的列表标题,将获取到的标题列表编号,最终输出到pageTitle.txt文件里
node.js实现博客小爬虫的实例代码

前言爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. 这篇文章介绍的是利用node.js实现博客小爬虫,核心的注释我都标注好了,可以自行理解,只需修改url和按照要趴的博客内部dom构造改一下filterchapters和filterchapters1就行了! 下面话不多说,直接来看实例代码 var http=require('http'); var Promise=require('Bluebird'); var cheeri
Node.js+jade+mongodb+mongoose实现爬虫分离入库与生成静态文件的方法

接着这篇文章Node.js+jade抓取博客所有文章生成静态html文件的实例继续,在这篇文章中实现了采集与静态文件的生成,在实际的采集项目中, 应该是先入库再选择性的生成静态文件. 那么我选择的数据库是mongodb,为什么用这个数据库,因为这个数据库是基于集合,数据的操作基本是json,与dom模块cheerio具有非常大的亲和力,cheerio处理过滤出来的数据,可以直接插入mongodb,不需要经过任何的处理,非常的便捷,当然跟node.js的亲和力那就不用说了,更重要的是,性能很棒.这
Node.js 实现简单小说爬虫实例

最近因为剧荒,老大追了爱奇艺的一部网剧,由丁墨的同名小说<美人为馅>改编,目前已经放出两季,虽然整部剧槽点满满,但是老大看得不亦乐乎,并且在看完第二季之后跟我要小说资源,直接要奔原著去看结局-- 随手搜了下,都是在线资源,下载的话需要登录,注册登录好麻烦,写个爬虫玩玩也好,于是动手用 node 写了一个,这里做下笔记工作流程获取 URLs 列表(请求资源 request模块) 根据 URLs 列表获取相关页面源码(可能遇到页面编码问题,iconv-lite模块) 源码解析,获取小说信息(
node.js爬虫爬取拉勾网职位信息

简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Android.ios作为关键词进行爬取,爬到的数据以json格式储存到本地,为了方便观察,我将数据整理了一下供大家参考数据结果上述数据为3月13日22时爬取的数据,可大致反映各个城市对不同语言的需求量. 爬取过程展示控制并发进行爬取爬取到的数据文件 json数据文件爬虫程序实现思路请求拉钩网的
Node.js爬取豆瓣数据实例分析

一直自以为自己vue还可以,一直自以为webpack还可以,今天在慕课逛node的时候,才发现,自己还差的很远.众所周知,vue-cli基于webpack,而webpack基于node,对node不了解,谈什么了解webpack.所以就自己给自己出了一道题,爬取豆瓣数据,目前还处于初级阶段.今天就浅谈爬取到豆瓣的数据,再另一个页面用自己的方式展现,后续会跟进. 1.需要解决的问题搭建服务怎么处理爬到的数据怎么自动打开默认浏览器 2.搭建服务搭建服务有好几种方式,一开始我用的http,但是
利用node.js写一个爬取知乎妹纸图的小爬虫

前言说起写node爬虫的原因,真是羞羞呀.一天,和往常一样,晚上吃过饭便刷起知乎来,首页便是推荐的你见过最漂亮的女生长什么样?,点进去各种漂亮的妹纸爆照啊!!!,看的我好想把这些好看的妹纸照片都存下来啊!一张张点击保存,就在第18张得时候,突然想起.我特么不是程序员么,这种手动草做的事,怎么能做,不行我不能丢程序员的脸了,于是便开始这次爬虫之旅. 原理初入爬虫的坑,没有太多深奥的理论知识,要获取知乎上帖子中的一张图片,我把它归结为以下几步. 准备一个url(当然是诸如你见过最漂亮的女生长什么
基于node.js制作简单爬虫教程

前言:最近想学习node.js,突然在网上看到基于node的爬虫制作教程,所以简单学习了一下,把这篇文章分享给同样初学node.js的朋友. 目标:爬取 http://tweixin.yueyishujia.com/webapp/build/html/ 网站的所有门店发型师的基本信息. 思路:访问上述网站,通过chrome浏览器的network对网页内容分析,找到获取各个门店发型师的接口,对参数及返回数据进行分析,遍历所有门店的所有发型师,直到遍历完毕,同事将信息存储到本地. 步骤一:安装nod
使用 Node.js 开发资讯爬虫流程

最近项目需要一些资讯,因为项目是用 Node.js 来写的,所以就自然地用 Node.js 来写爬虫了项目地址:github.com/mrtanweijie-,项目里面爬取了 Readhub . 开源中国 . 开发者头条 . 36Kr 这几个网站的资讯内容,暂时没有对多页面进行处理,因为每天爬虫都会跑一次,现在每次获取到最新的就可以满足需求了,后期再进行完善爬虫流程概括下来就是把目标网站的HTML下载到本地再进行数据提取. 一.下载页面 Node.js 有很多http请求库,这里使用 req

浅谈Node.js爬虫之网页请求模块

您可能感兴趣的文章:

相关推荐

随机推荐