Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

2025-03-29 03:43:38

Ruby：多线程下载博客文章到本地的完整代码

代码如下:

#encoding:utf-8
require 'net/http'
require 'thread'
require 'open-uri'
require 'nokogiri'
require 'date'

$queue = Queue.new
#文章列表页数
page_nums = 8
page_nums.times do |num|
$queue.push("http://www.cnblogs.com/hongfei/default.html?page="+num.to_s)
end

threads = []
#获取网页源码
def get_html(url)
html = ""
open(url) do |f|
html = f.read
end
return html
end

def fetch_links(html)
doc = Nokogiri::HTML(html)
#提取文章链接
doc.xpath('//div[@class="postTitle"]/a').each do |link|
    href = link['href'].to_s
    if href.include?"html"
      #add work to the queue
      $queue.push(link['href'])
    end
end
end

def save_to(save_to,content)
f = File.new("./"+save_to+".html","w+")
f.write(content)
f.close()
end

#程序开始的时间
$total_time_begin = Time.now.to_i

#开辟的线程数
threadNums = 10
threadNums.times do
threads<<Thread.new do
    until $queue.empty?
      url = $queue.pop(true) rescue nil
      html = get_html(url)
      fetch_links(html)
      if !url.include?"?page"
        title = Nokogiri::HTML(html).css('title').text
        puts "["+ Time.now.strftime("%H:%M:%S") + "]「" + title + "」" + url
        save_to("pages/" + title.gsub(/\//,""),html) if url.include?".html"
      end
    end
end
end
threads.each{|t| t.join}

#程序结束的时间
$total_time_end = Time.now.to_i
puts "线程数：" + threadNums.to_s
puts "执行时间：" + ($total_time_end - $total_time_begin).to_s + "秒"

多线程部分讲解

代码如下:

$queue = Queue.new
#文章列表页数
page_nums = 8
page_nums.times do |num|
$queue.push("http://www.cnblogs.com/hongfei/default.html?page="+num.to_s)
end

首先声明一个Queue队列，然后往队列中添加文章列表页，以便后面可以从这些列表页中提取文章链接,另外queue声明成全局变量($)，以便在函数中也可以访问到。

我的曾是土木人博客文章列表总共有8页，所以需要实现给page_nums赋值为8

代码如下:

通过Thread.new来创建线程

创建线程后，会进入until $queue.empty?循环，直到任务队列为空（即：没有要采集的网址了）
开辟的线程，每次都会从任务队列（queue）取到一个url,并通过get_html函数获取网页源码
由于任务队列中的url有分页url和文章url两种，所以要进行区分。
如果是分页url（url中含有“?page”），就直接提取文章链接。
如果是文章url，就保存到本地（save_to()，文件名为文章title）
在循环体外，创建线程完毕后，需要将创建的线程执行Thread#join方法，以便让主线程等待，
直到所有的线程执行完毕才结束主线程

代码执行时间统计

代码如下:

#程序开始的时间
$total_time_begin = Time.now.to_i
#执行过程

#程序结束的时间
$total_time_end = Time.now.to_i
puts "执行时间：" + ($total_time_end - $total_time_begin).to_s + "秒"

TIme模块的#now方法可以获取当前时间，然后使用to_i，可以将当前时间转换成从1970年1月1日00:00:00 UTC开始所经过的秒数。

获取网页源码

代码如下:

#获取网页源码
def get_html(url)
html = ""
open(url) do |f|
html = f.read
end
return html
end

ruby中，获取网页的方法用Net::HTTP模块和OpenURI模块。OpenURI模块最简单，可以直径将指定网页当成普通文件一样进行操作。

执行结果：使用多线程采集130多篇文章，耗时15秒（单线程：47s左右）

windows和linux下Ruby的下载与安装

在这里可以下载到适合您的最新的 Ruby 版本,当前稳定的版本是 1.8.6 .下载前请先阅读 Ruby 开源许可 . Ruby 源代码如果您欲使之与您的平台更为兼容或者需要专一设置您的环境,那么从源代码安装是最好的解决方案.如果有预先做好的 packages 需要安装到您的平台上,这也是一个好的方法. Ruby 1.8.6 (md5: 23d2494aa94e7ae1ecbbb8c5e1507683) 稳定版 (推荐) 稳定版快照这里的 tar'ed 和 gzip'ed 文件是最新稳定的
比较不错的关于ruby的电子书下载地址集合

ruby的图书不多,下面这些都是我从网络上收集而来的 , 下载直接点击图片即可 Programming Ruby, Second Edition : ruby的入门读物,第二版,学ruby必读 (UPDATED)Agile Web Development with Rails : 第二版 beta.基于rails1.2 (UPDATED)The Ruby Way 现在是更新到ruby 1.8.4的第二版, 是bd7lx共享的, thanks Ruby in A NutShell :
Ruby使用eventmachine为HTTP服务器添加文件下载功能

思路: 使用ruby eventmachine和em-http-server gem,完成一个简单的提供文件下载功能的HttpServer: 使用了EM的FileStreamer来异步发送文件,发送文件时先组装了header,然后调用FileStreamer. 代码: require 'rubygems' require 'eventmachine' require 'em-http-server' class HTTPHandler < EM::HttpServer::Server attr_
Ruby中使用mechanize批量下载校内网相册照片

自己闲来无事,用mechanize做了一个可以下载校内相册照片的代码. 写的有些简陋....主要是根据相册的地址来分析用户ID和相册ID,然后模拟请求相册页面,并提取所有照片,然后下载到本地的一个文件夹中. ruby版本:ruby1.8.7 or ruby1.9.2 操作系统:windows 7 Linux下没有试过~不过应该也可以的: 复制代码代码如下: #encoding: utf-8 require 'rubygems' require 'mechanize' class Renren
ruby实现的一个异步文件下载HttpServer实例

1.使用ruby eventmachine和em-http-server gem,完成一个简单的提供文件下载功能的HttpServer 2.使用了EM的FileStreamer来异步发送文件,发送文件时先组装了header,然后调用FileStreamer require 'rubygems' require 'eventmachine' require 'em-http-server' class HTTPHandler < EM::HttpServer::Server attr_access
Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

Ruby:多线程下载博客文章到本地的完整代码复制代码代码如下: #encoding:utf-8 require 'net/http' require 'thread' require 'open-uri' require 'nokogiri' require 'date' $queue = Queue.new #文章列表页数 page_nums = 8 page_nums.times do |num| $queue.push("http://www.cnblogs.com/hongfei
将python运行结果保存至本地文件中的示例讲解

一.建立文件,保存数据 1.使用python中内置的open函数打开txt文件 #mode 模式 #w 只能操作写入 r 只能读取 a 向文件追加 #w+ 可读可写 r+可读可写 a+可读可追加 #wb+写入进制数据 #w模式打开文件,如果而文件中有数据,再次写入内容,会把原来的覆盖掉 file_handle=open('1.txt',mode='w') 2.向文件中写入数据 2.1 write写入 #\n 换行符 file_handle.write('hello word 你好 \n') 2
PHP的Laravel框架中使用消息队列queue及异步队列的方法

queue配置首先说明一下我之前的项目中如何使用queue的. 我们现在的项目都是用的symfony,老一点的项目用的symfony1.4,新一点的项目用的都是symfony2.symfony用起来整体感觉还是很爽的,尤其symfony2,整体上来讲使用了很多java里面框架的设计思想.但是他不支持queue.在symfony,我们使用queue也经历了几个过程.最开始使用张堰同学的httpsqs.这个简单使用,但是存在单点.毕竟我们的项目还是正式对外服务的,所以我们研究了Apache旗下的开
PHP下载远程图片并保存到本地方法总结

1.获取远程文件大小及信息的函数 function getFileSize($url){ $url = parse_url($url); if($fp = @fsockopen($url['host'],empty($url['port'])?80:$url['port'],$error)){ fputs($fp,"GET ".(empty($url['path'])?'/':$url['path'])." HTTP/1.1\r\n"); fputs($fp,&qu
Java中队列Queue和Deque的区别与代码实例

目录一.Queue和Deque 二.api对比三.代码实例 1.queue 2.deque 总结一.Queue和Deque Queue以及Deque都是继承于Collection,Deque是Queue的子接口. Queue是FIFO的单向队列,Deque是双向队列. Queue有一个直接子类PriorityQueue,而Deque中直接子类有两个:LinkedList以及ArrayDeque. PriorityQueue的底层数据结构是数组,而无边界的形容,那么指明了PriorityQu
Python数据结构之优先级队列queue用法详解

一.基本用法 Queue类实现了一个基本的先进先出容器.使用put()将元素增加到这个序列的一端,使用get()从另一端删除.具体代码如下所示: import queue q = queue.Queue() for i in range(1, 10): q.put(i) while not q.empty(): print(q.get(), end=" ") 运行之后,效果如下: 这里我们依次添加1到10到队列中,因为先进先出,所以出来的顺序也与添加的顺序相同. 二.LIFO队列既然
Android中实现多线程操作的几种方式

目录前言最基础的方式继承Thread类并实现run()方法匿名内部类实现Runnable接口 callable+FutureTask 线程池手动创建线程池使用Executors创建线程池 Android中特有的实现多线程使用HandlerThread 使用IntentService JobIntentService/JobScheduler WorkManager WorkManager 使用协程 AsyncTask 结语前言多线程一直是一个老大难的问题,首先因为它难以理解,
java实现队列queue数据结构详解

目录概念队列中两个主要操作队列遵循以下条件: 队列的数组实现总结概念队列是一种非原始(特殊)的线性表,是一种先进先出(FIFO)的数据结构.它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作. FIFO:first input first output,即先添加的元素,先移除,最后添加的元素,最后移除. 工作方式类似于商场排队结账情形: 数组模拟队列图示: 队列中两个主要操作插入值操作:insert ——> enqueue(入队) ——>参数是要插
python实现批量下载新浪博客的方法

本文实例讲述了python实现批量下载新浪博客的方法.分享给大家供大家参考.具体实现方法如下: # coding=utf-8 import urllib2 import sys, os import re import string from BeautifulSoup import BeautifulSoup def encode(s): return s.decode('utf-8').encode(sys.stdout.encoding, 'ignore') def getHTML(url
在博客园博文中添加自定义右键菜单的方法详解

页面设计首先将这三个功能以一个列表<ul>的形式放置.鼠标移入时样式改变,移出时还原 <style> body{margin: 0;} ul{ margin: 0; padding: 0; list-style: none; } .list{ width: 100px; text-align: center; cursor: pointer; font:20px/40px '宋体'; background-color: #eee; } .in:hover{ background-

Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

相关推荐

随机推荐