node+express制作爬虫教程

2025-03-29 08:27:33

最近开始重新学习node.js，之前学的都忘了。所以准备重新学一下，那么，先从一个简单的爬虫开始吧。

什么是爬虫

百度百科的解释：

爬虫即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

通俗一点讲：

把别人网站的信息给弄下来，弄到自己的电脑上。然后再做一些过滤，比如筛选啊，排序啊，提取图片啊，链接什么的。获取你需要的信息。

如果数据量很大，而且你的算法又比较叼，并且可以给别人检索服务的话，那么你的爬虫就是一个小百度或者小谷歌了

什么是robots协议

了解完什么是爬虫之后，我们再来了解一下爬虫的协议了，也就是哪些东西才已去爬。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。　

robots.txt文件是一个文本文件，它是一个协议，而不是一个命令。它是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；

如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

如果将网站视为酒店里的一个房间，robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观，哪些房间因为存放贵重物品，或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令，也不是防火墙，如同守门人无法阻止窃贼等恶意闯入者。

环境搭建

需要的环境：node环境

需要安装的东西： express、require、cherrio

可以在这里找到模块的用法：https://www.npmjs.com，直接输入模块名字即可，比如：require

1、express这里就不做介绍了，中文网址在这里，可以查看：http://www.expressjs.com.cn/

2、request模块让http请求变的更加简单。最简单的一个示例：

var express = require('express');
var app = express();

app.get('/', function(req, res){
 res.send('hello world');
});

app.listen(3000);

安装：npm install request

3、cherrio 是为服务器特别定制的，快速、灵活、实施的jQuery核心实现。

通过cherrio,我们就可以将抓取到的内容，像使用jquery的方式来使用了。可以点击这里查看：https://cnodejs.org/topic/5203a71844e76d216a727d2e

var cheerio = require('cheerio'),
$ = cheerio.load('<h2 class="title">Hello world</h2>');
$('h2.title').text('Hello there!');

安装：npm install cherrio

爬虫实战

假设你的电脑里已经安装好了node和express。那么我们现在开始进行我们的爬虫小程序：

1、首先随便进入一个硬盘，假如是F盘，cmd环境下执行： express mySpider

然后你发觉你的F盘上多了一个 mySpider的文件夹和一些文件，进入文件，cmd下执行 npm install

2、然后安装我们的require ==》npm installrequire --save 、再安装我们的cherrio==》npm install cherrio --save

3、安装好后，执行npm start,如果想监听窗口的变化，可以执行：supervisor start app.js，然后在浏览器输入：localhost:3000，这样我们就可以在浏览器看到express的一些欢迎语啊什么的

4、打开app.js文件，你会发觉里面有一大堆东西，因为是爬虫小程序嘛，所以都是不需要滴，删，在express的API里有这段代码，粘贴在app.js里面

app.js

var express = require('express');
var app = express();

app.get('/', function(req, res){
 res.send('hello world');
});

app.listen(3000);

5、我们的require登场了。继续修改一下app.js改为：

var express = require('express');
var app = express();
var request = require('request');

app.get('/', function(req, res){
 request('http://www.cnblogs.com', function (error, response, body) {
  if (!error && response.statusCode == 200) {
    res.send('hello world');
  }
 })
});
app.listen(3000);

其中request的链接就是我们要爬的网址，加入我们要爬的是博客园的网站，所以输入的是博客园的网址

6、引入cherrio，来让我们可以操做爬到的网站的内容，继续修改一下app.js

var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res){
 request('http://www.cnblogs.com', function (error, response, body) {
  if (!error && response.statusCode == 200) {
   //返回的body为抓到的网页的html内容
   var $ = cheerio.load(body); //当前的$符相当于拿到了所有的body里面的选择器
   var navText=$('.post_nav_block').html(); //拿到导航栏的内容
   res.send(navText);
  }
 })
});
app.listen(3000);

我们抓到的内容都返回到了request的body里面。cherrio可以获取所有的dom选择器。假如我们要获取导航的内容：ul的class为：post_nav_block

然后我们就可以将里面的内容显示出来了：

这个说明，我们的爬虫小程序就成功了。当然，这是一个简单的不能再简单的爬虫了。不过今天的文章就暂时介绍到这里，只是大概了解一下爬虫的过程而已。

接下来的第二篇文章会对这个爬虫进行升级，改版。比如异步啦，并发啦，定时去爬啦等等。

代码地址：https://github.com/xianyulaodi/mySpider

node+experss实现爬取电影天堂爬虫

上周写了一个node+experss的爬虫小入门.今天继续来学习一下,写一个爬虫2.0版本. 这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂.因为每个周末都会在电影天堂下载一部电影来看看. talk is cheap,show me the code! 抓取页面分析我们的目标: 1.抓取电影天堂首页,获取左侧最新电影的169条链接 2.抓取169部新电影的迅雷下载链接,并且并发异步抓取. 具体分析如下: 1.我们不需要抓取迅雷的所有东西,只需要下载最新发布的电影即可,比如下面的左侧栏.一共有
node.js Web应用框架Express入门指南

一.安装复制代码代码如下: $ npm install express 或者在任何地方使用可执行的 express(1) 安装: 复制代码代码如下: \# 译注:强烈建议这种方式$ npm install -g express 二.快速上手最快上手 express 的方法是利用可执行的 express(1) 来生成一个应用,如下所示: 创建一个 app: 复制代码代码如下: $ npm install -g express$ express /tmp/foo && cd /tmp
nodejs教程安装express及配置app.js文件的详细步骤

安装express.js 如果你安装了npm,安装变得很简单,只需要在终端中运行下面的代码即可: 复制代码代码如下: npm install express -gd -g代表安装到NODE_PATH的lib里面,而-d代表把相依性套件也一起安装.如果沒有-g的话会安装目前所在的目录(会建立一个node_modules的文件夹),你可以透过以下指令来比较两者的不同: 复制代码代码如下: npm list -gnpm list 如果没有npm,那么我可以使用github来git下来最新的expr
node+express+jade制作简单网站指南

1.建立工程文件夹:my_jade 2.下载express和jade包到本地.我个人不喜欢下载成全局的,我喜欢下到工程文件夹中去. 3.建立相关的文件夹和文件. index.js: style.css gys.jade代码: index.jade: layout.jade app.js 运行app.js:node app.js; 在浏览器中预览: 在看一个不使用页面布局的例子: 修改index.js 修改app.js 运行app.js在浏览器中预览: 单击提交会触发ajax. .本文就先到这里
NodeJS框架Express的模板视图机制分析

模板引擎 Express支持许多模板引擎,常用的有: haml 的实现Haml haml.js 接替者,同时也是Express的默认模板引擎Jade 嵌入JavaScript模板EJS 基于CoffeeScript的模板引擎CoffeeKup 的NodeJS版本jQuery模板引擎视图渲染(view randering) 视图的文件名默认需遵循"<name>.<engine>"的形式,这里<engine>是要被加载的模块的名字.比如视图layout
node+express+ejs制作简单页面上手指南

1.建立工程文件夹my_ejs. 2.首先利用npm install express和npm install ejs 下载这两个家伙.至于要不要设置成全局的,看习惯,我习惯性的下载到本项目中的文件夹中my_ejs. 然后建立相应的文件: index.js: form.ejs: index.ejs app.js: 开始运行app.js node app.js,然后再浏览器端访问:localhost:1337 单击发表文章: 点击发表,跳转到首页. 好了到此为止,一个简易的"网站"算是出来
node+express制作爬虫教程

最近开始重新学习node.js,之前学的都忘了.所以准备重新学一下,那么,先从一个简单的爬虫开始吧. 什么是爬虫百度百科的解释: 爬虫即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. 通俗一点讲: 把别人网站的信息给弄下来,弄到自己的电脑上.然后再做一些过滤,比如筛选啊,排序啊,提取图片啊,链接什么的.获取你需要的信息. 如果数据量很大,而且你的算法又比较叼,并且可以给别人检索服务的话,那么你的爬虫就是一个小百度或者小谷歌
node.js实现爬虫教程

一.前言说是爬虫初探,其实并没有用到爬虫相关第三方类库,主要用了node.js基础模块http.网页分析工具cherrio. 使用http直接获取url路径对应网页资源,然后使用cherrio分析. 这里我主要学习过的案例自己敲了一遍,加深理解.在coding的过程中,我第一次把jq获取后的对象直接用forEach遍历,直接报错,是因为jq没有对应的这个方法,只有js数组可以调用. 二.知识点 ①:superagent抓去网页工具.我暂时未用到. ②:cherrio 网页分析工具,你可以理解其
node实现的爬虫功能示例

本文实例讲述了node实现的爬虫功能.分享给大家供大家参考,具体如下: node是服务器端的语言,所以可以像python一样对网站进行爬取,下面就使用node对博客园进行爬取,得到其中所有的章节信息. 第一步: 建立crawl文件,然后npm init. 第二步: 建立crawl.js文件,一个简单的爬取整个页面的代码如下所示: var http = require("http"); var url = "http://www.cnblogs.com"; http.
基于node.js制作简单爬虫教程

前言:最近想学习node.js,突然在网上看到基于node的爬虫制作教程,所以简单学习了一下,把这篇文章分享给同样初学node.js的朋友. 目标:爬取 http://tweixin.yueyishujia.com/webapp/build/html/ 网站的所有门店发型师的基本信息. 思路:访问上述网站,通过chrome浏览器的network对网页内容分析,找到获取各个门店发型师的接口,对参数及返回数据进行分析,遍历所有门店的所有发型师,直到遍历完毕,同事将信息存储到本地. 步骤一:安装nod
Node.js+Express配置入门教程详解

Node.js是一个Javascript运行环境(runtime).实际上它是对Google V8引擎进行了封装.V8引擎执行Javascript的速度非常快,性能非常好.Node.js对一些特殊用例进行了优化,提供了替代的API,使得V8在非浏览器环境下运行得更好.Node.js是一个基于Chrome JavaScript运行时建立的平台, 用于方便地搭建响应速度快.易于扩展的网络应用.Node.js 使用事件驱动, 非阻塞I/O 模型而得以轻量和高效,非常适合在分布式设备上运行的数据密集型
Node.js+Express配置入门教程

Node.js是一个Javascript运行环境(runtime).实际上它是对Google V8引擎进行了封装.V8引擎执行Javascript的速度非常快,性能非常好.Node.js对一些特殊用例进行了优化,提供了替代的API,使得V8在非浏览器环境下运行得更好.Node.js是一个基于Chrome JavaScript运行时建立的平台, 用于方便地搭建响应速度快.易于扩展的网络应用.Node.js 使用事件驱动, 非阻塞I/O模型而得以轻量和高效,非常适合在分布式设备上运行的数据密集型的
零基础实现node+express个性化聊天室的示例

本篇文章使用node+express+jquery写一个个性化聊天室,一起来get一下~(源码地址见文章末尾) 效果图项目结构实现功能登录检测系统自动提示用户状态(进入/离开) 显示在线用户支持发送和接收消息自定义字体颜色支持发送表情支持发送图片下面将一一讲解如何实现前期准备 node及npm环境.express.socket.io 具体实现 1.将聊天室部署到服务器先用node搭建一个服务器,部署在localhost:3000端口,先尝试向浏览器发送一个"hello wo
NodeJS制作爬虫全过程

今天来学习alsotang的爬虫教程,跟着把CNode简单地爬一遍. 建立项目craelr-demo 我们首先建立一个Express项目,然后将app.js的文件内容全部删除,因为我们暂时不需要在Web端展示内容.当然我们也可以在空文件夹下直接 npm install express来使用我们需要的Express功能. 目标网站分析如图,这是CNode首页一部分div标签,我们就是通过这一系列的id.class来定位我们需要的信息. 使用superagent获取源数据 superagent就是
nodejs制作爬虫实现批量下载图片

今天想获取一大批猫的图片,然后就在360流浪器搜索框中输入猫 ,然后点击图片.就看到了一大波猫的图片: http://image.so.com/i?q=%E7%8... ,我在想啊,要是审查元素,一张张手动下载,多麻烦,所以打算写程序来实现.不写不知道,一写发现里面还是有很多道道的. 1. 爬取图片链接因为之前也写过nodejs爬虫功能(参见:NodeJS制作爬虫全过程),所以觉得应该很简单,就用cheerio来处理dom啦,结果打印一下啥也没有,后来查看源代码: 发现 waterfall_

node+express制作爬虫教程

相关推荐

随机推荐