Ruby实现网页图片抓取
前段时间看到很多人写的下妹子脚本,自己也写一个
module CommonHelper require 'nokogiri' require 'open-uri' def down_load_xmz site_url = "http://www.xxx.com" for index_page in 1..141 doc_html = Nokogiri::HTML(open(site_url+'/share/comment-page-'+index_page.to_s)) doc_html.css("#comments p img").each do |item_img| puts item_img[:src] download_img(item_img[:src]) end end end ########下载图片 def download_img(img_url) begin img_file = open(img_url) { |f| f.read } file_name = img_url.split('/').last #puts file_name open("public/meizi/"+file_name, "wb") { |f| f.write(img_file) } return "/public/meizi/"+file_name rescue => err puts err return '' end end end
相关推荐
-
使用Ruby程序实现web信息抓取的教程
网站不再单单迎合人类读者.许多站点现在支持一些 API,这些 API 使计算机程序能够获取信息.屏幕抓取 -- 将 HTML 页面解析为更容易理解的表单的省时技术 - 仍然很方便.但使用 API 简化 Web 数据提取的机会在快速增多.根据 ProgrammableWeb 的信息,在本文发表时,已存在 10,000 多个网站 API - 在过去的 15 个月中增加了 3,000 个.(ProgrammableWeb 本身提供了一个 API,可从其目录中搜索和检索 API.mashup.成员概要文
-
ruby+nokogori抓取糗事百科前10页并存储进数据库示例
ruby,nokogori,爬取糗事百科最新的10页加图片比并同时保存进文本跟数据库 复制代码 代码如下: #encoding:utf-8require "open-uri"require "nokogiri"require "mysql"@dbh=Mysql.real_connect("localhost","root","dengli","pachong")@fi
-
Ruby实现网页图片抓取
前段时间看到很多人写的下妹子脚本,自己也写一个 module CommonHelper require 'nokogiri' require 'open-uri' def down_load_xmz site_url = "http://www.xxx.com" for index_page in 1..141 doc_html = Nokogiri::HTML(open(site_url+'/share/comment-page-'+index_page.to_s)) doc_htm
-
Python实现简单网页图片抓取完整代码实例
利用python抓取网络图片的步骤是: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片 以下是比较简单的一个抓取某一个百度贴吧网页的图片的实现: # -*- coding: utf-8 -*- # feimengjuan import re import urllib import urllib2 #抓取网页图片 #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): pag
-
Python爬虫之网页图片抓取的方法
一.引入 这段时间一直在学习Python的东西,以前就听说Python爬虫多厉害,正好现在学到这里,跟着小甲鱼的Python视频写了一个爬虫程序,能实现简单的网页图片下载. 二.代码 __author__ = "JentZhang" import urllib.request import os import random import re def url_open(url): ''' 打开网页 :param url: :return: ''' req = urllib.reques
-
java在网页上面抓取邮件地址的方法
本文实例讲述了java在网页上面抓取邮件地址的方法.分享给大家供大家参考.具体实现方法如下: 复制代码 代码如下: import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.util.regex.Matcher; import java.util.regex.Pattern; public class h1 { public stati
-
Python爬虫实现网页信息抓取功能示例【URL与正则模块】
本文实例讲述了Python爬虫实现网页信息抓取功能.分享给大家供大家参考,具体如下: 首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 def test(): f=urllib.urlopen('http://www.baidu.com') while True: firstLine=f.readline() print firstLine 下面我们说
-
PHP通过CURL实现定时任务的图片抓取功能示例
本文实例讲述了PHP通过CURL实现定时任务的图片抓取功能.分享给大家供大家参考,具体如下: 下文为各位介绍一个PHP定时任务通过CURL图片的抓取例子,希望例子对大家帮助,基本思路就是通过一个URL连接,将所有图片的地址抓取下来,然后循环打开图片,利用文件操作函数下载下来,保存到本地,并且把图片的alt属性也抓取下来,最后将数据保存到自己数据库. 废话不多说,看程序就能明白了,其中,需要用到PHP定时任务和PHP的一个第三方插件simple_html_dom.php 的使用,参考simple_
-
一个PHP的远程图片抓取函数分享
复制代码 代码如下: function grabImage($url, $filename = '') { if($url == '') { return false; //如果 $url 为空则返回 false; } $ext_name = strrchr($url, '.'); //获取图片的扩展名 if($ext_name != '.gif' && $ext_name != '.jpg' && $ext_name != '.bmp' && $ext_n
-
php抓取并保存网站图片的实现代码
此程序实现了网页源代码捕获,图片链接获取.分析.并将同样的图片链接合并功能,实现了图片抓取功能.利用php强大的网络内容处理函数将指定的网站上的所有图片抓取下来,保存在当前目录下,以下为代码: <?php /*完成网页内容捕获功能*/ function get_img_url($site_name){ $site_fd = fopen($site_name, "r"); $site_content = ""; while (!feof($site_fd)) {
-
百度UEditor编辑器如何关闭抓取远程图片功能
这个坑娘的功能,开始时居然不知道如何触发,以为有个按钮,点击一下触发,翻阅了文档,没有发现,然后再网络上看到原来是复制粘贴非白名单内的图片到编辑框时触发,坑娘啊............... 问题又来了:今天在写百度UEditor编辑器的[取远程图片功能]时有碰到:该功能如何关闭了? 又花了15分钟左右的时间查阅了[官方文档]以及[官方论坛],都没有找到解决办法,那就查阅下源文件看看,是否有相关的判断呢(本人JS非常烂) 于是马上查阅:ueditor.all.js文件,发现如下代码 复制代码 代
-
golang抓取网页并分析页面包含的链接方法
1. 下载非标准的包,"golang.org/x/net/html" 2. 先安装git,使用git命令下载 git clone https://github.com/golang/net 3. 将net包,放到GOROOT路径下 比如: 我的是:GOROOT = E:\go\ 所以最终目录是:E:\go\src\golang.org\x\net 注意:如果没有golang.org和x文件夹,就创建 4. 创建fetch目录,在其下创建main.go文件,main.go文件代码内容如下
随机推荐
- ASP.NET Core配置教程之读取配置信息
- SQL Update多表联合更新的方法
- SQL SERVER调用存储过程小结
- jQuery选择器源码解读(一):Sizzle方法
- ASP.NET入门之HTML服务器控件概述
- Yii使用DeleteAll连表删除出现报错问题的解决方法
- JQuery实现简单验证码提示解决方案
- linux下 root 登录 MySQL 报错的问题
- 基于jQuery试卷自动排版系统
- jquery分页插件jquery.pagination.js实现无刷新分页
- nodejs中使用HTTP分块响应和定时器示例代码
- JS闭包、作用域链、垃圾回收、内存泄露相关知识小结
- iOS开发中文件的上传和下载功能的基本实现
- JS更改select内option属性的方法
- mssql2005注入方法小结
- Django 实现购物车功能的示例代码
- springboot基于Mybatis mysql实现读写分离
- python3实现高效的端口扫描
- C语言通讯录管理系统课程设计
- Linux中把用户添加到组的4个方法总结