nodejs简单抓包工具使用详解

2025-04-07 12:26:21

前言

就是简简单单写程序的我为什么需要抓包？

其实在平时写demo的时候需要用到一些图片和文本的资源的，但是需求量比较大，这个时候就想去网站上面直接复制啊，然后图片另存为啊，什么的一系列繁琐的操作。

但是现在不需要了，你只要看到这篇文章，你就很轻松了。本项目Github地址：

https://github.com/xiaoqiuxiong/reptileDemo

1.在你的电脑桌面新建一个reptileDemo文件夹。

然后进入文件夹，然后在改文件夹目录下打开cmd。输入下图所示回车，连续按回车即可。

初始化完之后，你会在文件夹里面看下package.json文件，里面就是一些基本的包管理基本配置。

2.cmd输入下图所示，然后回车

这步是安装cheerio模块，主要是用来解释html和使用jqueryAPI来操作请求返回的html。

3.cmd输入下图所示，然后回车

这步是安装request模块，主要是用来发请求处理的。

4.文件夹内添加一个data文件夹，用来存放抓包的数据。

5.文件夹内新建app.js文件。添加内容如下:

let fs = require('fs');
let cheerio = require('cheerio');
let request = require('request');
let path = require('path');
let i = 0;
let j = 0;
//初始需要抓取的页面url
let url = "http://www.silver.org.cn/cjyw/list_p_1.html";
let http = url.includes('https') ? require('https') : require('http');

function startRequest(x) {
  // 采用http模块向服务器发起一次get请求
  http.get(x, function(res) {
    // 用来存储请求网页的整个html内容
    var html = '';
    var titles = [];
    // 防止中文乱码
    res.setEncoding('utf-8');
    // 监听data事件，每次取一块数据
    res.on('data', function(chunk) {
      html += chunk;
    });
    // 监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
    res.on('end', function() {
      // 采用cheerio模块解析html
      var $ = cheerio.load(html);
      j = 0;
      savedContent($);
      i++;
      console.log('抓包页码：' + i);
      // 限制请求页数
      if (i <= 10) {
        fetchPage(`http://www.silver.org.cn/cjyw/list_p_${i}.html`);
      } else {
        console.log('抓包完成');
      };
    });
  }).on('error', function(err) {
    console.log(err);
  });
}
//保存内容
function savedContent($) {
  var item = $('.lt_col li')[j]
  // 标题
  var x = $(item).find('h2').text().trim();
  // 内容
  var y = $(item).find('p').text().trim();
  // 图片地址
  var z = $(item).find('img').attr('src');
  // 图片文件名
  var o = path.basename(z);
  // 创建文件夹
  fs.mkdir(`./data/${x}`, err => {
    if (!err) {
      // 保存文本
      fs.appendFile(`./data/${x}/index.txt`, `标题：${x}\n内容：${y}`, 'utf-8', err => {
        if (err) {
          console.log(`****创建txt失败****： ${x}`);
        }
      });
      // 保存图片
      request.head(z, (err, res, body) => {
        if (err) {
          console.log(`****请求图片失败****： ${x}`);
        }
      });
      // 写图片到本地
      request(z).pipe(fs.createWriteStream(`./data/${x}/${o}`));
      j++;
      if (j <= $('.lt_col li').length - 1) {
        savedContent($)
      }

    }
  })
}

startRequest(url); //主程序开始运行

本项目主要是抓取一个新闻网站的新闻列表数据，有标题，内容和图片。

6.package.json修改如下：

"scripts": {
  "test": "echo \"Error: no test specified\" && exit 1",
  "dev": "node app.js"
 },

完结。

做完上面操作之后你就可以使用cmd，然后输入

预览

这样就搞定了，是不是很爽啊。

疯狂的程序员决不是靠狂妄和拼命的程序员，而是能够脚踏实地，持续努力的程序员，一个程序员真正做到这两点，技术上去后，唯一能限制他的只有想象力，到那个时候才算“疯狂的程序员”，这种程序员，才能令对手无比恐惧。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

node.js版本管理工具n无效的原理和解决方法

简介 n 是 node 的一个模块,可以用它来管理 node 的各种版本.类似 Python 中的 pyenv 和 Ruby 的 rbenv.n 的作者是著名的TJ大神. 通过 npm 安装 n: $ npm install -g n 查看当前 node 版本: $ node -v v4.2.4 通过 n 安装指定版本: $ n 4.4.4 install : node-v4.4.4 mkdir : /opt/node/n/versions/node/4.4.4 fetch : https://
详解基于node.js的脚手架工具开发经历

前言我们团队的前端项目是基于一套内部的后台框架进行开发的,这套框架是基于vue和ElementUI进行了一些定制化包装,并加入了一些自己团队设计的模块,可以进一步简化后台页面的开发工作. 这套框架拆分为基础组件模块,用户权限模块,数据图表模块三个模块,后台业务层的开发至少要基于基础组件模块,可以根据具体需要加入用户权限模块或者数据图表模块.尽管vue提供了一些脚手架工具vue-cli,但由于我们的项目是基于多页面的配置进行开发和打包,与vue-cli生成的项目结构和配置有些不一样,所以创建项目
node.js 基于cheerio的爬虫工具的实现（需要登录权限的爬虫工具）

公司有过一个需求,需要拿一个网页的的表格数据,数据量达到30w左右:为了提高工作效率. 结合自身经验和网上资料.写了一套符合自己需求的nodejs爬虫工具.也许也会适合你的. 先上代码.在做讲解 'use strict'; // 引入模块 const superagent = require('superagent'); const cheerio = require('cheerio'); const Excel = require('exceljs'); var baseUrl = '';
详解使用 Node.js 开发简单的脚手架工具

前言像我们熟悉的 vue-cli,react-native-cli 等脚手架,只需要输入简单的命令 vue init webpack project,即可快速帮我们生成一个初始项目.在实际工作中,我们可以定制一个属于自己的脚手架,来提高自己的工作效率. 为什么需要需要脚手架? 减少重复性的工作,不再需要复制其他项目再删除无关代码,或者从零创建一个项目和文件. 根据交互动态生成项目结构和配置文件等. 多人协作更为方便,不需要把文件传来传去. 思路要开发脚手架,首先要理清思路,脚手架是如何工作的
nodejs图片处理工具gm用法小结

在做H5应用中,有时候会涉及到一些图片加工处理的操作,nodejs有一个很好的后台图片处理module,就是这里说的gm.gm有官方文档,但感觉写得太抽象,反而看不懂了.这里把一些常见的用法写下,供大家参考. 安装首先要安装 GraphicsMagick或者ImageMagick,然后 npm install --save gm GraphicsMagick和ImageMagick的区别 GraphicsMagick是从ImageMagick中分离出来的,推荐下载ImageMagick 加载G
利用n工具轻松管理Node.js的版本

前言相信对于学习Node.js的小伙伴们都知道,现在 Node 的版本更新很快,目前最新稳定版已经更新到 v7.6.0 了,而生产环境一般选择使用 LTS(Long-term Support)版本,目前最新的是 v6.10.0. LTS本地下载:点击这里新版的 Node 7.x.x 有非常有用的更新,那就是支持了 --harmony-async-await.这样就不用依赖 babel 来使用 async/await 特性了. 但是,如何让 7.x.x 和 LTS 的 6.x.x 并存呢?就需
浅谈node.js 命令行工具(cli)

一. 先了解一下package.json 每个项目的根目录都有一个 package.json 文件,定义了这个项目所需要的各种模块,以及项目的配置信息,下面是一个比较完整的package.json文件 { "name": "vue-cli", "version": "2.9.3", "description": "A simple CLI for scaffolding Vue.js projec
nodejs简单抓包工具使用详解

前言就是简简单单写程序的我为什么需要抓包? 其实在平时写demo的时候需要用到一些图片和文本的资源的,但是需求量比较大,这个时候就想去网站上面直接复制啊,然后图片另存为啊,什么的一系列繁琐的操作. 但是现在不需要了,你只要看到这篇文章,你就很轻松了.本项目Github地址: https://github.com/xiaoqiuxiong/reptileDemo 1.在你的电脑桌面新建一个reptileDemo文件夹. 然后进入文件夹,然后在改文件夹目录下打开cmd.输入下图所示回车,连续按回车
网络安全渗透测试小程序抓包流程步骤详解

目录小程序测试流程搜索目标小程序小程序主体信息确认小程序包获取 PC端 windows端获取小程序包流程移动端解包调试抓包小程序测试流程分为两个方面,解包可以挖掘信息泄露问题.隐藏的接口,抓包可以测试一些逻辑漏洞.API安全问题.两者结合起来就可以边调试边进行测试,更方便于安全测试. 搜索目标小程序目标搜索不能仅仅局限于主体单位,支撑单位.供应商.全资子公司等都可能是入口点,所以小程序当然也不能放过它们. 小程序主体信息确认查看小程序账号主体信息,否则打偏了花费了时间不说
Flutter配置代理抓包实现过程详解

目录背景工具准备配置Flutter代理方式一.http请求库配置代理 web_socket_channel配置代理方式二.重写原生方法背景在开发Flutter中,我们经常需要对网络请求进行调试,而Flutter自带的devtool的network又不太好用,有时会出现请求成功,但是又看不到response返回(难道是我姿势不对?).于是我就尝试通过抓包来查看请求工具准备安装charles 有时我们需要抓https的请求,此时用charles抓包的内容是加密的,看不到明文,这时候
网络抓包工具wireshark入门教程详解

Wireshark(前称Ethereal)是一个网络数据包分析软件.网络数据包分析软件的功能是截取网络数据包,并尽可能显示出最为详细的网络数据包数据. Wireshark使用WinPCAP作为接口,直接与网卡进行数据报文交换. 网络管理员使用Wireshark来检测网络问题,网络安全工程师使用Wireshark来检查资讯安全相关问题,开发者使用Wireshark来为新的通讯协定除错,普通使用者使用Wireshark来学习网络协定的相关知识. 当然,有的人也会"居心叵测"的用它来寻找一些
抓包工具Fiddler的使用方法详解(Fiddler中文教程)

Fiddler简介 Fiddler(中文名称:小提琴)是一个HTTP的调试代理,以代理服务器的方式,监听系统的Http网络数据流动,Fiddler可以也可以让你检查所有的HTTP通讯,设置断点,以及Fiddle所有的"进出"的数据(我一般用来抓包) Fiddler还包含一个简单却功能强大的基于JScript .NET事件脚本子系统,它可以支持众多的HTTP调试任务. Fiddler官方网站提供了大量的帮助文档和视频教程,这是学习Fiddler的最好资料 Fiddler_官方网站 Fid
Nodejs多站点切换Htpps协议详解及简单实例

Nodejs多站点切换Htpps协议详解纯属赶个时髦,折腾了两天终于将个人小站的全部服务由http协议切换到了https,整个过程虽然也不算太麻烦,但也不得不承认,个人对互联网安全这方面的知识确认比较欠缺: Letsencrypt是由Mozilla.思科和EFF等组织发起的,免费向广大互联网网站提供SSL证书,目的在于加速推进互联网由Http过渡到Https,很高兴周末能够与其不期而遇,这对于一个互联网散户来说,绝对是大大的福利,所以决定乘周末折腾一番:先搞到证书,再改程序: 获取letsen
Mac Charles抓包工具详细介绍

Mac Charles抓包工具不过可惜的是,Fidder使用C#开发的,所以就不能在Mac上使用了,不过还有另外一个抓包神器,就是Charles,它是Java开发的,所以跨平台,不仅可以在Mac上使用,Linux以及Window下都是可以使用的,当然需要安装JDK,才能运行,同时还有一个问题就是他是收费的. 一.下载先到它的官网http://www.charlesproxy.com/可下载到最新版本. 这个是3.9.3版本的,下载下来,安装就不多说了,很easy....打开界面: 二.破解
Ubuntu 17.10安装phpMyAdmin数据库管理工具配置详解

和Windows下各种双击安装直接使用的数据库管理工具不同,Linux下的数据库管理工具显得有些稍稍复杂.由于版权和收费限制,很多好用的数据库管理工具例如Data Grip和Navicat不能直接在Linux的包管理器中安装使用.不过仍然有一些好用的DBMS,phpmyadmin就是其中之一. 安装LAMP LAMP是Linux.Apache.MySql(MariaDB).PHP(Python.Perl)等软件的合称.我们现在要在Ubuntu16.04上安装,因此只需要安装其他三个软件就可以了.
Python安装依赖(包)模块方法详解

Python模块,简单说就是一个.py文件,其中可以包含我们需要的任意Python代码.迄今为止,我们所编写的所有程序都包含在单独的.py文件中,因此,它们既是程序,同时也是模块.关键的区别在于,程序的设计目标是运行,而模块的设计目标是由其他程序导入并使用. 不是所有程序都有相关联的.py文件-比如说,sys模块就内置于Python中,还有些模块是使用其他语言(最常见的是C语言)实现的.不过,Python的大多数库文件都是使用Python实现的,因此,比如说,我们使用了语句import coll
为什么不推荐使用BeanUtils属性转换工具示例详解

什么是BeanUtils工具 BeanUtils工具是一种方便我们对JavaBean进行操作的工具,是Apache组织下的产品. BeanUtils工具一般可以方便javaBean的哪些操作? 1)beanUtils 可以便于对javaBean的属性进行赋值. 2)beanUtils 可以便于对javaBean的对象进行赋值. 3)beanUtils可以将一个MAP集合的数据拷贝到一个javabean对象中. 1 背景之前在专栏中讲过"不推荐使用属性拷贝工具",推荐直接定义转换类和方

nodejs简单抓包工具使用详解

相关推荐

随机推荐