火车头采集器3.0采集图文教程

以采集示例详解部分功能
今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:
一、建立站点
1、请先打开火车采集器,新建站点,看下图:

为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图
大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于或

等标志来表示内容的开始。他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。对应的页面在这:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:

3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作,你要找的只需要是从上到下第一个标志就可以了,我的意思是说,html代码中允许有n个相同的开始(结束,下同)标志,但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 为例,我们发现他的内容从“进入论坛”,因此双击代码测试框,查找需要的代码,如图:

我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部分,我以

作为内容开始的标志。
接下来看内容结束标志,如下两图:

下面是根据我么设置规则采集回来的内容

一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告,或链接。这边我们需要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:

这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器论坛:http://bbs.locoy.com 探讨。

二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:

2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:

作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这http://ent.163.com/special/00031HI0/entnews.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:

3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:

下面是刚才我采集到本地论坛采集测试的两个截屏:

(0)

相关推荐

  • 火车头采集器3.0采集图文教程

    以采集示例详解部分功能今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始.如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维:如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间.以下是一些采集的基本步骤,您可以灵活运用:一.建立站点1.请先打开火车采集器,新建站点,看下图:为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图大部分的站点,通

  • Win10 系统下VisualStudio2019 配置点云库 PCL1.11.0的图文教程

    一.下载PCL1.11.0 Github下载地址:https://github.com/PointCloudLibrary/pcl/releases 下载红框内的两个文件 二.安装PCL1.11.0 2.1 安装"PCL-1.11.0-AllInOne-msvc2019-win64.exe". (1)选择第二个,自动添加系统变量 (2)安装路径选择D盘,系统会自动新建PCL 1.11.0文件夹. 2.2 安装完成之后打开文件夹 D:\PCL 1.11.0\3rdParty\OpenNI

  • Linux 7.4上安装配置Oracle 11.2.0.4图文教程

    1. 配置Yum源及关闭SeLinux [root@localhost ~]# mkdir /media/rhel [root@localhost ~]# mount /dev/cdrom /media/rhel mount: /dev/sr0 is write-protected, mounting read-only [root@localhost ~]# vi /etc/yum.repos.d/iso.repo [iso] name=iso baseurl=file:///media/rh

  • dede3.1分页文字采集过滤规则详说(图文教程)

    本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本,通过简单的变通和改动,解决一般性文字分页的采集问题 一.范例部分范例分页区域代码:范例分页区域代码:=700) window.open('/upload/20074321296309.gif');" src="http://files.jb51.net/upload/20074321296309.gif" onload="if(this.width>'700')this.width='700';&qu

  • dede3.1分页文字采集过滤规则详说(图文教程)续二

    稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动.以不变就万变地解决分页采集问题.二.采集新目标 目标地址:1.http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html2.http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和

  • dede3.1分页文字采集过滤规则详说(图文教程)续四

    至此,分页内容匹配进行完毕. 文章内容匹配.分页内容匹配都进行完后,最后就只有"过滤"了,包括分页区域过滤和文章内容过滤.据本人的感觉,上面的两个规则都好写,只要找到全部链接中的"唯一性"代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙--哈哈,感觉就是这样.尤其如我一般的新手,对"正则"这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了. 好了,闲话了.也累了,听听<加州旅馆>

  • dede3.1分页文字采集过滤规则详说(图文教程)续三

    图片: =700) window.open('/upload/200743213245900.gif');" src="http://files.jb51.net/upload/200743213245900.gif" onload="if(this.width>'700')this.width='700';" border=0> 至此,文章内容部分的匹配规则确定下来了: 复制代码 代码如下: </TR>              

  • mysql installer community 8.0.12.0安装图文教程

    本文教程为大家分享了mysql installer community 8.0.12.0的安装,供大家参考 一.下载mysql-installer-community-8.0.12.0.msi 点击 :下载链接 二.安装mysql-installer-community-8.0.12.0.msi 1.点击安装包进入安装页面,选中I accept the license terms 2.一直点击next,遇到此页面,点击yes,然后点击execute,等待安装. 3.安装成功以后,一直点击next

  • 基于Windows安装MySQL 8.0.12图文教程

    本教程仅适用Windows系统,如果你原本装了没装上,一定要先删除原本的数据库,执行:mysqld --remove mysql,然后在看我的帖子! 第一步:到MySQL官网下载安装包 第二步:将下载好的安装包(mysql-8.0.12-winx64 .zip)解压到相应路径下,建议安装在空间比较大的盘内.(我的安装路径是:D:\mysql-8.0.12-winx64)这边的安装目录一定要记清楚 !! 第三步:在安装目录下新建一个配置文件,命名为my.ini(这边要注意,我当时在安装的时候,遇到

  • windows下tomcat7.0安装图文教程

    这是windows下tomcat 7.0的安装步骤. 方法/步骤 双击.exe安装程序,显示如下图所示的欢迎页面. 点击next按扭出现如下图所示的页面 点击Agree按钮出现下图所示的页面 选择你需要安装的组件(一般按照默认选择安装就可以啦),点击next按钮出现下图所示的页面 默认选择,点击next按钮进行下一步安装 经过以上步骤Tomcat7.0安装完毕!点击Finish结束安装. 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们.

随机推荐