ruby写扫描当前网页所有url的脚本

#scanweb.rb

#用法ruby scanweb.rb www.jb51.net 将当前结果保存在c:\1.txt

require 'net/http'
filename= File.new('c:\1.txt',"w+")
if $*[0]==nil 
puts "hehe,没有输入网址"
else
h = Net::HTTP.new($*[0], 80)
resp, data = h.get('/index.html', nil)
if resp.message == "OK"
data.scan(/<a href="(.*?)"/).each do |x|
puts x
filename.puts x
end
end
end

#无聊,有vbs、php、ruby版了,好像ruby比vbs快,与php不相上下。

=begin

修改一下

require 'net/http'
filename= File.new('1.txt',"w+")
if $*[0]==nil 
abort "用法示例:ruby #$0 www.sohu.com ,结果放在当前目录1.txt" 
end

h = Net::HTTP.new($*[0], 80)

resp, data = h.get('/index.html', nil)
if resp.message == "OK"
data.scan(/<a href="(.*?)"/).each do |x|
puts x
filename.puts x
end
end

=end

(0)

相关推荐

  • 优化Ruby脚本效率实例分享

    profile.rb是为Ruby程序准备的profiler,它可以统计并输出各方法的运行时间,以便于找到程序执行的性能瓶颈.这次就用它来剖析脚本的运行时间.使用方法很简单,加上命令行选项-r profile就可以: ruby -r profile rename.rb 运行结束后,会把统计信息输出到标准错误输出中.如下图所示: profile统计的是各方法的运行时间,分为2类.第1种计算的是从方法调用到方法返回之间的时间,称为整体时间:第2种则是从整体时间中扣除在该方法中调用其它方法所耗费时间之后

  • ruby 小脚本搞定CVS服务器更换后checkout下来的工程迁移

    def changeCVS(path) Dir.foreach(path) do |dir| if dir != "." && dir != ".." absdir = path + "/" + dir if (File.directory? absdir) && (dir == "CVS") cvs_root_file_name = absdir + "/Root" p c

  • ruby写扫描当前网页所有url的脚本

    #scanweb.rb #用法ruby scanweb.rb www.jb51.net 将当前结果保存在c:\1.txt require 'net/http' filename= File.new('c:\1.txt',"w+") if $*[0]==nil  puts "hehe,没有输入网址" else h = Net::HTTP.new($*[0], 80) resp, data = h.get('/index.html', nil) if resp.mess

  • js返回当前网页的url

    无标题文档 我们 脚本介绍 返回当前网页的URL 脚本代码 document.write(document.URL) 脚本运行 document.write(document.URL) 该脚本的价值是在没有服务器技术的情况下通过标签访问的方法向网页传送信息,即在地址栏输入 http://网址#书签,代码将返回相同信息 Copyright© 2007 JB51.Net http://jb51.net [Ctrl+A 全选 注:如需引入外部Js需刷新才能执行]

  • 用python写一个windows下的定时关机脚本(推荐)

    由于本人经常使用笔记本共享WiFi,但是又不想笔记本开机一夜(为了低碳环保嘛 ~_~!),所以每次都要用使用DOS命令关机,感觉好麻烦.正好最近在学习Python,于是决定用python写一个定时关机的脚本: 话不多说由于代码比较简单,直接上代码. 代码块 # -*- coding: utf-8 -*- """ Created on Sat Dec 19 11:18:16 2015 @author: win7 """ '''定时关机''' '''

  • 获取当前网页document.url location.href区别总结

    JAVASCRIPT權威指南第四版上說,這兩個有區別. 參見 document.URL 章節. [document.URL是訪問的文檔URL,而window.location.href是真實的文檔URL 搞不明白.服务器重定向后有可能使document.url变动,但window.location.href指的永远是访问该网页时用的URL.document.url只能作为只读字符串

  • 一个下载网页图片的shell脚本

    记得去年找工作面试时,听到一位同学说自己非常喜欢linux,我相信他说的是真的,我觉得喜欢linux的人很大的快乐来自shell脚本,因为它能够整合linux上的各种资源干大事.下面和大家分享下一个shell脚本写的图片抓取器.使用方法:复制以下代码,命名为img_downloader.sh.使用时在shell下输入 ./img_downloader.sh www.baidu.com -d images,该shell脚本就会把百度首页上的图片下下来了. 复制代码 代码如下: #!/bin/bas

  • Ruby实现的删除已经合并的git分支脚本分享

    使用Git管理代码工程,着实方便了很多,但是当做完feature分支或者完成hotfix之后,总是忘记删除这些无用的分支,一个一个地删除着实麻烦,重复手工劳动不符合程序员的风格,于是写了一个简单的脚本.一键删除那些不需要的分支,让多余的干扰信息离开视线. 删除哪些分支? 删除的为Merge(合并)操作的源分支.如果工程正在处于分支A(HEAD为A分支),分支B已经合并到了分支A,即A分支包含了B分支的内容,则会删除B分支. 代码 复制代码 代码如下: #!/usr/bin/env ruby #

  • 利用python写个下载teahour音频的小脚本

    前言 最近空闲的时候看到了之前就关注的一个小站http://teahour.fm/,一直想把这里的音频都听一遍,可转眼间怎么着也有两年了,却什么也没做.有些伤感,于是就写了个脚本,抓了下音频的下载链接,等下载下来后一定要认真听听. 时间仓促,加调试也就那么十几分钟,脚本写的可能有些烂,大家可以留言指出. teahour.py #!/usr/bin/env python #coding: utf-8 import sys import requests from BeautifulSoup imp

  • Javascript打印网页部分内容的脚本

    正常情况下的打印是使用 window.print(); 直接整页打印,但如果需要打印网页中定义的部分内容,则可使用如下的方法: 1.在页面的代码头部处加入JavaScript: JavaScript代码 复制代码 代码如下: <script language=javascript> function doPrint() { bdhtml=window.document.body.innerHTML; sprnstr="<!--startprint-->"; ep

  • js统计网页在线时间的脚本

    每xxxxx毫秒检测一次是否在线, TR_COUNT次之后设定改用户为假死状态(即不在当前页面活动,afk..) 当页面关闭时把停留时间送出, /**//* ---------------------------------------------------------------------------- * Script Name: online.js * Last Modified: 2008-4-13 22:25 * Author: meyu * Copyright (c) 2008

  • 解决谷歌搜索技术文章时打不开网页问题的python脚本

    注意:Win7或者WIn8用户要用管理员权限执行. 项目地址:http://code.google.com/p/my-hosts-file/downloads 复制代码 代码如下: import urllib      import os      import shutil hostspath = "C:\\Windows\\System32\\drivers\\etc"      savepath = hostspath + "\\hostsave" def d

随机推荐