Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

Ruby:多线程下载博客文章到本地的完整代码

代码如下:

#encoding:utf-8
require 'net/http'
require 'thread'
require 'open-uri'
require 'nokogiri'
require 'date'

$queue = Queue.new
#文章列表页数
page_nums = 8
page_nums.times do |num|
  $queue.push("http://www.cnblogs.com/hongfei/default.html?page="+num.to_s)
end

threads = []
#获取网页源码
def get_html(url)
  html = ""
  open(url) do |f|
    html = f.read
  end
  return html
end

def fetch_links(html)
  doc = Nokogiri::HTML(html)
  #提取文章链接
  doc.xpath('//div[@class="postTitle"]/a').each do |link|
    href = link['href'].to_s
    if href.include?"html"
      #add work to the  queue
      $queue.push(link['href'])
    end
  end
end

def save_to(save_to,content)
  f = File.new("./"+save_to+".html","w+")
  f.write(content)
  f.close()
end

#程序开始的时间
$total_time_begin = Time.now.to_i

#开辟的线程数
threadNums = 10
threadNums.times do
  threads<<Thread.new do
    until $queue.empty?
      url = $queue.pop(true) rescue nil
      html = get_html(url)
      fetch_links(html)
      if !url.include?"?page"
        title = Nokogiri::HTML(html).css('title').text
        puts "["+ Time.now.strftime("%H:%M:%S") + "]「" + title + "」" + url
        save_to("pages/" + title.gsub(/\//,""),html) if url.include?".html"
      end
    end
  end
end
threads.each{|t| t.join}

#程序结束的时间
$total_time_end = Time.now.to_i
puts "线程数:" + threadNums.to_s
puts "执行时间:" + ($total_time_end - $total_time_begin).to_s + "秒"

多线程部分讲解

代码如下:

$queue = Queue.new
#文章列表页数
page_nums = 8
page_nums.times do |num|
  $queue.push("http://www.cnblogs.com/hongfei/default.html?page="+num.to_s)
end

首先声明一个Queue队列,然后往队列中添加文章列表页,以便后面可以从这些列表页中提取文章链接,另外queue声明成全局变量($),以便在函数中也可以访问到。

我的曾是土木人博客文章列表总共有8页,所以需要实现给page_nums赋值为8

代码如下:

#开辟的线程数
threadNums = 10
threadNums.times do
  threads<<Thread.new do
    until $queue.empty?
      url = $queue.pop(true) rescue nil
      html = get_html(url)
      fetch_links(html)
      if !url.include?"?page"
        title = Nokogiri::HTML(html).css('title').text
        puts "["+ Time.now.strftime("%H:%M:%S") + "]「" + title + "」" + url
        save_to("pages/" + title.gsub(/\//,""),html) if url.include?".html"
      end
    end
  end
end
threads.each{|t| t.join}

通过Thread.new来创建线程

创建线程后,会进入until $queue.empty?循环,直到任务队列为空(即:没有要采集的网址了)
开辟的线程,每次都会从任务队列(queue)取到一个url,并通过get_html函数获取网页源码
由于任务队列中的url有分页url和文章url两种,所以要进行区分。
如果是分页url(url中含有“?page”),就直接提取文章链接。
如果是文章url,就保存到本地(save_to(),文件名为文章title)
在循环体外,创建线程完毕后,需要将创建的线程执行Thread#join方法,以便让主线程等待,
直到所有的线程执行完毕才结束主线程

代码执行时间统计

代码如下:

#程序开始的时间
$total_time_begin = Time.now.to_i
#执行过程

#程序结束的时间
$total_time_end = Time.now.to_i
puts "执行时间:" + ($total_time_end - $total_time_begin).to_s + "秒"

TIme模块的#now方法可以获取当前时间,然后使用to_i,可以将当前时间转换成从1970年1月1日00:00:00 UTC开始所经过的秒数。

获取网页源码

代码如下:

#获取网页源码
def get_html(url)
  html = ""
  open(url) do |f|
    html = f.read
  end
  return html
end

ruby中,获取网页的方法用Net::HTTP模块和OpenURI模块。OpenURI模块最简单,可以直径将指定网页当成普通文件一样进行操作。

执行结果:使用多线程采集130多篇文章,耗时15秒(单线程:47s左右)

(0)

相关推荐

  • ruby实现的一个异步文件下载HttpServer实例

    1.使用ruby eventmachine和em-http-server gem,完成一个简单的提供文件下载功能的HttpServer 2.使用了EM的FileStreamer来异步发送文件,发送文件时先组装了header,然后调用FileStreamer require 'rubygems' require 'eventmachine' require 'em-http-server' class HTTPHandler < EM::HttpServer::Server attr_access

  • Ruby使用eventmachine为HTTP服务器添加文件下载功能

    思路: 使用ruby eventmachine和em-http-server gem,完成一个简单的提供文件下载功能的HttpServer: 使用了EM的FileStreamer来异步发送文件,发送文件时先组装了header,然后调用FileStreamer. 代码: require 'rubygems' require 'eventmachine' require 'em-http-server' class HTTPHandler < EM::HttpServer::Server attr_

  • Ruby中使用mechanize批量下载校内网相册照片

    自己闲来无事,用mechanize做了一个可以下载校内相册照片的代码. 写的有些简陋....主要是根据相册的地址来分析用户ID和相册ID,然后模拟请求相册页面,并提取所有照片,然后下载到本地的一个文件夹中. ruby版本:ruby1.8.7 or ruby1.9.2 操作系统:windows 7 Linux下没有试过~不过应该也可以的: 复制代码 代码如下: #encoding: utf-8 require 'rubygems' require 'mechanize' class Renren

  • 比较不错的关于ruby的电子书下载地址集合

    ruby的图书不多,下面这些都是我从网络上收集而来的 , 下载直接点击图片即可 Programming Ruby, Second Edition :  ruby的入门读物,第二版,学ruby必读 (UPDATED)Agile Web Development with Rails : 第二版 beta.基于rails1.2 (UPDATED)The Ruby Way  现在是更新到ruby 1.8.4的第二版,  是bd7lx共享的, thanks Ruby in A   NutShell :  

  • windows和linux下Ruby的下载与安装

    在这里可以下载到适合您的最新的 Ruby 版本,当前稳定的版本是 1.8.6 .下载前请先阅读 Ruby 开源许可 . Ruby 源代码 如果您欲使之与您的平台更为兼容或者需要专一设置您的环境,那么从源代码安装是最好的解决方案.如果有预先做好的 packages 需要安装到您的平台上,这也是一个好的方法. Ruby 1.8.6 (md5: 23d2494aa94e7ae1ecbbb8c5e1507683) 稳定版 (推荐) 稳定版快照 这里的 tar'ed 和 gzip'ed 文件是最新稳定的

  • Ruby中使用多线程队列(Queue)实现下载博客文章保存到本地文件

    Ruby:多线程下载博客文章到本地的完整代码 复制代码 代码如下: #encoding:utf-8 require 'net/http' require 'thread' require 'open-uri' require 'nokogiri' require 'date' $queue = Queue.new #文章列表页数 page_nums = 8 page_nums.times do |num|   $queue.push("http://www.cnblogs.com/hongfei

  • 将python运行结果保存至本地文件中的示例讲解

    一.建立文件,保存数据 1.使用python中内置的open函数 打开txt文件 #mode 模式 #w 只能操作写入 r 只能读取 a 向文件追加 #w+ 可读可写 r+可读可写 a+可读可追加 #wb+写入进制数据 #w模式打开文件,如果而文件中有数据,再次写入内容,会把原来的覆盖掉 file_handle=open('1.txt',mode='w') 2.向文件中写入数据 2.1 write写入 #\n 换行符 file_handle.write('hello word 你好 \n') 2

  • PHP的Laravel框架中使用消息队列queue及异步队列的方法

    queue配置 首先说明一下我之前的项目中如何使用queue的. 我们现在的项目都是用的symfony,老一点的项目用的symfony1.4,新一点的项目用的都是symfony2.symfony用起来整体感觉还是很爽的,尤其symfony2,整体上来讲使用了很多java里面框架的设计思想.但是他不支持queue.在symfony,我们使用queue也经历了几个过程.最开始使用张堰同学的httpsqs.这个简单使用,但是存在单点.毕竟我们的项目还是正式对外服务的,所以我们研究了Apache旗下的开

  • PHP下载远程图片并保存到本地方法总结

    1.获取远程文件大小及信息的函数 function getFileSize($url){ $url = parse_url($url); if($fp = @fsockopen($url['host'],empty($url['port'])?80:$url['port'],$error)){ fputs($fp,"GET ".(empty($url['path'])?'/':$url['path'])." HTTP/1.1\r\n"); fputs($fp,&qu

  • Java中队列Queue和Deque的区别与代码实例

    目录 一.Queue和Deque 二.api对比 三.代码实例 1.queue 2.deque 总结 一.Queue和Deque Queue以及Deque都是继承于Collection,Deque是Queue的子接口. Queue是FIFO的单向队列,Deque是双向队列. Queue有一个直接子类PriorityQueue,而Deque中直接子类有两个:LinkedList以及ArrayDeque. PriorityQueue的底层数据结构是数组,而无边界的形容,那么指明了PriorityQu

  • Python数据结构之优先级队列queue用法详解

    一.基本用法 Queue类实现了一个基本的先进先出容器.使用put()将元素增加到这个序列的一端,使用get()从另一端删除.具体代码如下所示: import queue q = queue.Queue() for i in range(1, 10): q.put(i) while not q.empty(): print(q.get(), end=" ") 运行之后,效果如下: 这里我们依次添加1到10到队列中,因为先进先出,所以出来的顺序也与添加的顺序相同. 二.LIFO队列 既然

  • Android中实现多线程操作的几种方式

    目录 前言 最基础的方式 继承Thread类并实现run()方法 匿名内部类 实现Runnable接口 callable+FutureTask 线程池 手动创建线程池 使用Executors创建线程池 Android中特有的实现多线程 使用HandlerThread 使用IntentService JobIntentService/JobScheduler WorkManager WorkManager 使用协程 AsyncTask 结语 前言 多线程一直是一个老大难的问题,首先因为它难以理解,

  • java实现队列queue数据结构详解

    目录 概念 队列中两个主要操作 队列遵循以下条件: 队列的数组实现 总结 概念 队列是一种非原始(特殊)的线性表,是一种先进先出(FIFO)的数据结构.它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作. FIFO:first input first output,即先添加的元素,先移除,最后添加的元素,最后移除. 工作方式类似于商场排队结账情形: 数组模拟队列图示: 队列中两个主要操作 插入值操作:insert ——> enqueue(入队) ——>参数是要插

  • python实现批量下载新浪博客的方法

    本文实例讲述了python实现批量下载新浪博客的方法.分享给大家供大家参考.具体实现方法如下: # coding=utf-8 import urllib2 import sys, os import re import string from BeautifulSoup import BeautifulSoup def encode(s): return s.decode('utf-8').encode(sys.stdout.encoding, 'ignore') def getHTML(url

  • 在博客园博文中添加自定义右键菜单的方法详解

    页面设计 首先将这三个功能以一个列表<ul>的形式放置.鼠标移入时样式改变,移出时还原 <style> body{margin: 0;} ul{ margin: 0; padding: 0; list-style: none; } .list{ width: 100px; text-align: center; cursor: pointer; font:20px/40px '宋体'; background-color: #eee; } .in:hover{ background-

随机推荐