实例解释比较详细的杰奇小说采集规则编写教程

添加采集规则
规则说明
系统默认变量:<{articleid}> - 文章序号,<{chapterid}> - 章节序号, <{subarticleid}> - 文章子序号, <{subchapterid}> - 章节子序号。
系统标签 * 可以替代任意字符串。
系统标签 ! 可以替代除了<和>以外的任意字符串。
系统标签 ~ 可以替代除了<>'"以外的任意字符串。
系统标签 ^ 可以替代除了数字和<>之外字符串。
系统标签 $ 可以替代数字字符串。
采集规则中,需要获取的内容部分用四个以上系统标签代替,如 !!!!

基本设置

网站标识configs\article\collectsite.php中所添写的标识,可随便填写,一般为所采集站点的域名简写,以和其他规则区分。例:feiku

网站名称所采集站的名称。例:飞库

网站地址所采集站的地址。例:http://www.feiku.com

文章子序号运算方式不是必须添写的,我这里就留空了。
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)

章节子序号运算方式不是必须添写的,我这里就留空了。(谁知道他一个文件夹放多少书啊,他不按规则放,我不是采集不到 )
支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)

代理服务器地址  不使用代理服务器请留空

代理服务器端口

现有章节无法对应时候是否全部清空重新采集 是 否  根据自己需要选择

是否默认把采集到的文章设置为全本 是 否  根据自己需要选择,如果选择"是"无论文章是连载还是完结,你站上都显示全本,建议选“否”

发送HTTP_REFERER标志,用于突破防采集设置 是 否  默认选“是”,不知道什么用,我选“是”先突破下再说

对方网页编码  (自动检测 GB2312 UTF8 BIG5)默认“自动检测” 编码与本站不同将自动尝试转换
文章信息页面采集规则

文章信息页面地址书籍信息页网址,书籍ID用<{articleid}>代替。例:
http://feiku.com/Book/<{articleid}>/Index.html

文章标题采集规则要求会查看网页的源文件啊 ,不会的可以停止了 .查看下信息页面的源文件,然后找到文章标题在源文件的什么位置(我们是以飞库为例的,就是章节信息页面那个《文章标题》在源文件的位置).这里以《我的美女大小姐》这个为例,找到标题附近的代码是<div id="CrBookTitle"><span class="booktitle">《我的美女大小姐》</span></div>把上面代码复制到文章标题采集规则的那个框里,然后把我的美女大小姐这个真实的标题替换为!!!!当然也可以替换成其他的替换符号比如****不过讲究的是在能表达意思的情况下范围越小越好(习惯问题,这里当然只能采集到文章标题了,但是其他的一些采集的时候就有你不想要的东西).

作者采集规则<li class="l6"><a href="/Author/WB/144238.html">李兴禹</a></li>这里的李兴禹是要采集的内容,用!!!!代替不过144238只对这个文章有用,其他文章有其他的数字,所以用任意数字串$代替.所以作者采集规则就是
<li class="l6"><a href="/Author/WB/$.html">!!!!</a></li>

文章类型采集规则 <li class="l2"><a href="/Book/LN/133.html">都市</a></li>由上面两个采集规则的写法不难看出这里的规则是 <li class="l2"><a href="/Book/LN/$.html">!!!!</a></li>

文章类型对应关系这个就自己写吧,呵呵,给出飞库的对应关系,大家参考下.玄幻=>1||奇幻=>1||武侠=>2||仙侠=>2||言情=>3||都市=>3||科幻=>7||灵异=>8||游戏=>6||竞技=>6||历史=>4||军事=>4||美文=>10||同人=>9||传记=>10||名著=>10||札记=>10||笑话=>10||外国=>10||古典=>10||少儿=>10||侦探=>5||经管=>10||时尚=>10||英语=>10||电脑=>10||学习=>10||法律=>10||其它=>10
对方类型名称和本站类型序号的用“=>”分割,两个类型之间用“||”分割,类型名称“default”标识默认的类型对应关系  
本站类型和序号对应关系如下:
玄幻魔法=>1||武侠修真=>2||都市言情=>3||历史军事=>4||侦探推理=>5||网游动漫=>6||科幻小说=>7||恐怖灵异=>8||散文诗词=>9||其他类型=>10

关键字采集规则 找到关键字附近的代码主角检索关键字 —— 我的美女   李兴禹   美女   都市 <br />这里的"我的美女   李兴禹   美女   都市"用****代替.结果规则是主角检索关键字 ——****<br />

内容简介采集规则  <div id="CrbsSum">   ‘大‘小姐和大‘小‘姐,你们别折腾我了行不?我求你们了~~!<br>  拥有亿万身家的刘星不愿意朱门酒肉臭和勾心斗角的生活,放弃了家族的大公司,而是选择在一个小公司当一个普普通通的白领。<br>  在餐厅的一次英雄救美使他结识了一位大美女,而这个美女竟然是刘星所在公司在上海总公司老板的女儿,换句话来说也就是他的大小姐。<br>  但是表面上很美看似优雅的大小姐却有不为人知的一面,真是要人命呀!<br>  给我当保姆?大小姐,你开什么玩笑,你什么都不会做,还给我当保姆?<br>  老板有两个女儿?这么说自己白天刁难的那美女是二小姐?<br>  恩?什么?你也决定住在这里?啊!别折腾我了~~!一个就够我受的了,又来一个。可真是‘大'‘小'姐呀!<br>  ‘大'小姐外表优雅温柔但却十分迷糊大条,大‘小'姐外表冰艳绝伦但却十分热辣泼妇,而且两姐妹从小到大水火不容,这回都住在我家,这家……可真是热闹了!<br>  想泡美女的却被‘大'‘小'姐给‘泡'了!啊~~!还让不让人活了~~!<br /></div>
                  <div id="CrbsRole">根据上面说的,结果规则是
<div id="CrbsSum">****<br /></div>
                  <div id="CrbsRole">
注意:源文件里面有的代码换行什么的,你复制进去的时候除了用替换符替换要采集的内容外,不要改格式,别看他换行了,你给退几各和前面的连接到一起.

封面图片采集规则 <div id="CrbtlBookImg"><img src="/UploadPhoto/Book/BookImg/144/144238.jpg" width="100" height="125" /></div>结果规则是<div id="CrbtlBookImg"><img src="!!!!" width="100" height="125" /></div>这里width="100" height="125"也可以弄成width="$" height="$"不过如果采集站封面图片都一样大小就不用理了.找封面图片在源文件里的位置的时候,可以到信息页面查看图片的属性,看图片什么名字,然后到源文件里搜索.

过滤的封面图片找到个没有封面图片的文章,然后看下img src="和"里面是什么,给写上就可以了,这里是/img/noimg.gif

目录页面链接采集规则由于上面子序号我们都没有写,这里我们利用这个规则采集子序号就可以了.在文章信息页面的源文件里找到目录页面连接附近的代码(一般都在点击阅读附近,飞库里是【点击阅读】在源文件里附近的代码)
【<a href="/html/book/168/144238/List.shtm" ><font color="#CC0000">点击阅读</font></a>】
这里要采集的是内容168而144238可以当任意数字代替,所以结果规则是
【<a href="/html/book/$$$$/$/List.shtm" ><font color="#CC0000">点击阅读</font></a>】
本规则采集到的内容将作为标记<{indexlink}>(下面出现的子序号就可以用这个代替了,呵呵)使用,可以应用在下面的“文章目录页面地址”里面

全文标记采集规则需要找个全本作品了, 在信息页面源文件里找到写作进程附近代码(带上进程"完接")
<li class="l3">写作进程</li>
                     <li class="l4">完结</li>
写作进程用!!!!代替,所以结果规则是
<li class="l3">!!!!</li>
                     <li class="l4">完结</li>
本规则不是采集内容保存,而是匹配就认为是全本,不匹配则认为是连载  
文章目录页面采集规则

文章目录页面地址就是目录页面的地址
http://feiku.com/html/book/168/144238/List.shtm
不过里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/List.shtm

分卷名称采集规则查看目录页面的源文件,找到分卷名称附近代码<div id="NclassTitle">正文  里面的正文是我们要采集的东西,用!!!!代替,结果规则是<div id="NclassTitle">!!!!

章节名称采集规则找到章节名称附近代码 更新字数:3402">第一章 大象~~大象~~!</a></li>这里第一章 大象~~大象~~!是要采集的内容用!!!!或者****代替3402是任意数字用$代替,结果规则是更新字数">!!!!</a></li>

章节序号采集规则找到章节序号附近代码
<li><a href="3320510.shtm" title="更新时间:
其中3320510是我们要采集的章节序号用$$$$代替,结果规则是
<li><a href="$$$$.shtm" title="更新时间
章节内容页面采集规则

章节内容页面地址
http://feiku.com/html/book/168/144238/3320510.shtm
里面的168文章子序号用上面的<{indexlink}>代替144238文章序号用<{articleid}>代替3320510章节序号用<{chapterid}>代替,结果规则是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/<{chapterid}>.shtm

章节内容采集规则章节内容附近代码,呵呵太大了啊,我就偷懒了.
</div>
          <div id="BookText">章节内容
</div>
上面的<div id="BookText">里面有的书籍章节内容代码里面不是BookText比如有的是<div id="ssmmkkg">但是
</div>
          <div id="
是都有的,所以就用他了,章节内容用****代替,结果规则如下,大家自己进修吧
</div>
          <div id="****</div>

章节内容过滤规则上面两端代码里面所有你不想要的内容都可以写在这里.这里是我去掉的一些,大家可以根据需要自己弄
<a href="/User/Messages.aspx?to=badmin&title=
[飞库网 http://www.feiku.com]
http://www.feiku.com
飞库网
http://www.cmfu.com
BookText">
cmfu.com
可多个过滤规则,每个规则必须一行,可使用替换标签,如:<div>!</div>  
是否采集图片内容到本地 是 否  根据需要自己选择(下面都自己选择吧,累死了,闪了 )
采集到本地的图片处理,需要GD库支持
是否启用图片处理 是 否 启用图片处理对采集速度有一定影响
采集图片是否加上水印 是 否
加水印的设置在本模块的参数设置里面,于手工上传图片加水印方式相同。
采集图片背景颜色  
这里留空则系统自动判断
按区域抹去原有图片水印  
按照图片内的矩形坐标,抹去该区域内容。一个矩形用四个数值表示(用“,”分隔),分别是矩形左上角X,Y和左下角X,Y。当X,Y大于0时候表示从图片左上角开始加多少像素,当X,Y小于0时候表示从图片右下角开始减多少像素。多个区域用“|”分割。
例如:本项设置成“1,1,100,50|-100,-50,-1,-1”,分别表示左上角和右下角100*50的矩形区域。
按照颜色抹去原有图片水印  
一般水印颜色与图片背景和内容颜色都不同,可以设置多个水印颜色全部抹去,用“|”分隔,如“#FAFAFA|#FF0000|#00FF00”

(0)

相关推荐

  • 实例解释比较详细的杰奇小说采集规则编写教程

    添加采集规则 规则说明系统默认变量:<{articleid}> - 文章序号,<{chapterid}> - 章节序号, <{subarticleid}> - 文章子序号, <{subchapterid}> - 章节子序号.系统标签 * 可以替代任意字符串.系统标签 ! 可以替代除了<和>以外的任意字符串.系统标签 ~ 可以替代除了<>'"以外的任意字符串.系统标签 ^ 可以替代除了数字和<>之外字符串.系统标签

  • Java实现一个小说采集程序的简单实例

    被标题吸引进来的不要骂我. 只是一个简单的实现,随手写了来下载一部喜欢的小说的.示例中的小说只是示例,不是我的菜. 使用了jsoup.挺好用的一个工具. 有需要的话,参考下自己改吧.挺简单的,是吧. 代码如下: package com.zhyea.doggie; import java.io.File; import java.io.FileWriter; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.n

  • 关关小说采集器[杰奇]采集出错的修正方法

    最近突然喜欢上了小说站,呵呵,用关关小说采集器采集了一下,感觉不错! 但是在 采集 内容是图片 的小说时,出现错误,如下提示: #HY000Incorrect integer value: ' null ' for column ' attachid ' at row 1 的错误! 经过寻找发现修改办法是如下图:修改即可

  • C# 实例解释面向对象编程中的单一功能原则(示例代码)

    在面向对象编程领域中,单一功能原则(Single responsibility principle)规定每个类都应该有且仅有一个单一的功能,并且该功能应该由这个类完全封装起来. 在面向对象编程中,SOLID 是五个设计原则的首字母缩写,旨在使软件设计更易于理解.灵活和可维护.这些原则是由美国软件工程师和讲师罗伯特·C·马丁(Robert Cecil Martin)提出的许多原则的子集,在他2000年的论文<设计原则与设计模式>中首次提出. SOLID 原则包含: S:单一功能原则(single

  • 编写采集规则的好帮手—RegexBuddy 下载,正则不再难

    好多人都说dede的采集不好使,其实从我的个人使用经验来看,还是很好用的,可能是由于我是个程序员把,不过趁手的工具也是很重要的.下面给大家介绍RegexBuddy这个小软件,一个内有乾坤的软件.先上截图=700) window.open('/upload/2007327202937851.jpg');" src="http://files.jb51.net/upload/2007327202937851.jpg" onload="if(this.width>'

  • 中国站长站 For Dede4.0 采集规则

    转载请注明出自落伍im286.com,本贴地址:http://www.im286.com/viewthread.php?tid=1991813 只差两分就落伍了,特献出中国站长站 For Dede4.0 的采集规则,希望大家能够支持我落伍,谢谢了!!! 下面的规则为网站运营  >> 搜索优化 的采集规则,其他栏目的规则只要把"来源网址"和"文章网址需包含"这两项改成你想采集栏目的网址和目录. 如想采集站长在线 >> 好站推荐 这个栏目,你只要

  • 最新超详细VMware虚拟机下载与安装图文教程

    VMware下载与安装 一.虚拟机的下载 1.进入VMware官网,点击左侧导航栏中的下载,再点击图中标记的Workstation Pro,如下图所示. 2.根据操作系统选择合适的产品,在这里以Windows系统为例,点击转至下载,如下图所示. 3.在1处可以选择版本,默认为最新版本.选择好版本后点击立即下载,下载速度很慢的话,建议科学上网. 二.虚拟机的安装 1.打开.exe文件, 即可开始安装. 2.安装位置默认在C盘下,在这里我选择安装在F盘,安装路径尽量不要有中文. 3.等待安装就好了.

  • 最详细的python工具Anaconda+Pycharm安装教程

    一.介绍 Python:python代码解释器,用于编译.py代码,python可以单独安装,本次环境配置目的用于解决计算机视觉处理,因此选用安装Anaconda,Anaconda中包含python.exe以及常用的工具包. Opencv:包含大量的图像处理工具,需要配置相关环境. Pycharm:python代码常用的IDE,python开发常用工具. 本文示范安装版本如下:(在配置python+pycharm中,版本兼容性较强,没有特定的版本配合要求) Anaconda Anaconda3-

  • 超详细的JavaScript基本语法规则

    目录 01 JavaScript (简称:js) js分三个部分: JavaScript是什么? js的代码可以分三个地方写: 02 操作符 操作符:一些符号-----用来计算 关系运算符: 关系运算表达式: 逻辑运算符: 逻辑运算表达式: 03 JS变量 变量名的注意问题-变量名的命名: 04 JS变量作用 05 JS变量的交换 使用第三方的变量进行交换 第二种方式交换:一般适用于数字的交换 06 注释 注释的方式: 07 JS的数据类型 值类型(基本类型): 引用数据类型: 08 JS的数字

  • 用实例解释Python中的继承和多态的概念

    在OOP程序设计中,当我们定义一个class的时候,可以从某个现有的class继承,新的class称为子类(Subclass),而被继承的class称为基类.父类或超类(Base class.Super class). 比如,我们已经编写了一个名为Animal的class,有一个run()方法可以直接打印: class Animal(object): def run(self): print 'Animal is running...' 当我们需要编写Dog和Cat类时,就可以直接从Animal

随机推荐