Nodejs抓取html页面内容(推荐)
废话不多说,直接给大家贴node.js抓取html页面内容的核心代码了。
具体代码如下所示:
var http = require("http"); var iconv = require('iconv-lite'); var option = { hostname: "stockdata.stock.hexun.com", path: "/gszl/s601398.shtml" }; var req = http.request(option, function(res) { res.on("data", function(chunk) { console.log(iconv.decode(chunk, "gbk")); }); }).on("error", function(e) { console.log(e.message); }); req.end();
下面再看下面一种nodejs抓取网页内容
function loadPage(url) { var http = require('http'); var pm = new Promise(function (resolve, reject) { http.get(url, function (res) { var html = ''; res.on('data', function (d) { html += d.toString() }); res.on('end', function () { resolve(html); }); }).on('error', function (e) { reject(e) }); }); return pm; } loadPage('http://www.baidu.com').then(function (d) { console.log(d); });
相关推荐
-
Node.js+jade抓取博客所有文章生成静态html文件的实例
这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前77篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的. 项目结构: 好了,接下来,我们就来讲解下,这篇文章主要实现的功能: 1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件) 2,根据jade模板生成html文件 一.抓取文
-
Nodejs抓取html页面内容(推荐)
废话不多说,直接给大家贴node.js抓取html页面内容的核心代码了. 具体代码如下所示: var http = require("http"); var iconv = require('iconv-lite'); var option = { hostname: "stockdata.stock.hexun.com", path: "/gszl/s601398.shtml" }; var req = http.request(option,
-
Winform实现抓取web页面内容的方法
本文以一个非常简单的实例讲述了Winform实现抓取web页面内容的方法,代码简洁易懂,非常实用!分享给大家供大家参考. 具体实现代码如下: WebRequest request = WebRequest.Create("http://1.bjapp.sinaapp.com/play.php?a=" + PageUrl); WebResponse response = request.GetResponse(); Stream resStream = response.GetRespo
-
利用curl抓取远程页面内容的示例代码
最基本的操作如下 复制代码 代码如下: $curlPost = 'a=1&b=2';//模拟POST数据$ch = curl_init();curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0')); //构造IPcurl_setopt($ch, CURLOPT_REFERER, "http://www.jb51.net/"); //构造来路 cur
-
C# 实现抓取网站页面内容的实例方法
抓取新浪网的新闻栏目,如图所示: 使用 谷歌浏览器的查看源代码: 通过分析得知,我们所要找的内容在以下两个标签之间: 复制代码 代码如下: <!-- publish_helper name='要闻-新闻' p_id='1' t_id='850' d_id='1' --> 内容.... <!-- publish_helper name='要闻-财经' p_id='30' t_id='98' d_id='1' --> 如图所示: 内容.... 使用VS建立一个如图所示的网站: 我们下载
-
服务端nodejs抓取jsonp接口数据实现示例
目录 前言 方法思路 Node环境动态执行脚本 eval() Function vm.runInThisContext (推荐) 完整代码实现 前言 众所周知,jsonp 接口返回的是一段 js 脚本,在浏览器中使用 script 标签引入.加载成功后,会直接执行其中的 callback 方法,以参数的形象直接返回真正有用的接口数据,以此达到跨域请求的目的.但是如果在非浏览器环境(node执行环境)中怎么来抓取呢,本文就主要介绍一下,服务端nodejs抓取jsonp接口数据 的思路方法和踩过的坑
-
Python多进程方式抓取基金网站内容的方法分析
本文实例讲述了Python多进程方式抓取基金网站内容的方法.分享给大家供大家参考,具体如下: 在前面这篇//www.jb51.net/article/162418.htm我们已经简单了解了"python的多进程",现在我们需要把抓取基金网站(28页)内容写成多进程的方式. 因为进程也不是越多越好,我们计划分3个进程执行.意思就是 :把总共要抓取的28页分成三部分. 怎么分呢? # 初始range r = range(1,29) # 步长 step = 10 myList = [r[x:
-
python多线程抓取天涯帖子内容示例
使用re, urllib, threading 多线程抓取天涯帖子内容,设置url为需抓取的天涯帖子的第一页,设置file_name为下载后的文件名 复制代码 代码如下: #coding:utf-8 import urllibimport reimport threadingimport os, time class Down_Tianya(threading.Thread): """多线程下载""" def __init__(sel
-
thinkphp 抓取网站的内容并且保存到本地的实例详解
thinkphp 抓取网站的内容并且保存到本地的实例详解 我需要写这么一个例子,到电子课本网下载一本电子书. 电子课本网的电子书,是把书的每一页当成一个图片,然后一本书就是有很多张图片,我需要批量的进行下载图片操作. 下面是代码部分: public function download() { $http = new \Org\Net\Http(); $url_pref = "http://www.dzkbw.com/books/rjb/dili/xc7s/"; $localUrl =
-
python基于BeautifulSoup实现抓取网页指定内容的方法
本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法.分享给大家供大家参考.具体实现方法如下: # _*_ coding:utf-8 _*_ #xiaohei.python.seo.call.me:) #win+python2.7.x import urllib2 from bs4 import BeautifulSoup def jd(url): page = urllib2.urlopen(url) html_doc = page.read() soup = B
-
PHP实现的抓取小说网站内容功能示例
本文实例讲述了PHP实现的抓取小说网站内容功能.分享给大家供大家参考,具体如下: 爬取免费内容,弄到手机,听书,妥妥的. ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; GreenBrowser)'); ini_set('max_execution_time', '0'); $base = 'https://www
随机推荐
- angular4中关于表单的校验示例
- JS 表单验证大全
- javascript 检测浏览器类型和版本的代码
- 详解Java实现缓存(LRU,FIFO)
- 深入探讨JAVA中的异常与错误处理
- 利用Python实现简单的相似图片搜索的教程
- 收藏的asp.net文件上传类源码
- ASP.NET中各个后缀名的含义介绍
- php抽象类使用要点与注意事项分析
- Android TextView设置不同的颜色字体
- js放到head中失效的原因与解决方法
- Web服务器识别技术揭秘
- jQuery实现密保互斥问题解决方案
- JS CSS制作饱含热情的镶边文字闪烁特效
- Java 文件上传的实例详解
- Android学习教程之圆形Menu菜单制作方法(1)
- Python内置函数——__import__ 的使用方法
- 解决python3 网络请求路径包含中文的问题
- Go routine调度详解
- Pandas-Cookbook 时间戳处理方式