采集操作使用详细说明

一、项目编辑--基本设置

  项目名称:    电脑入门                         (注:随便写)
  网站名称:    it.com.cn                        (注:随便写)
  网站地址:    http://www.it.com.cn             (注:随便写)
  新闻列表网址:http://www.it.com.cn/edu/readme/ (注:采集网站哪个网站的网址。)
  项目备注:    记得经常采集这个栏目。           (注:随便写)

二、项目编辑--采集目标源码

  列表开始代码:(注:要找到唯一的)
  列表结束代码:频道精选 
  列表索引分页:(注:这里有三种,<设置标签>、<批量生成>、<手动添加>)

  1、设置标签:
  下页开始标记:下页结束标记:>下一页     (注:要找到唯一的)
  索引分页重定向:   (注:不知何意,请老大指教!)

   2、批量生成 (注:这里设置生成范围为 1 TO 5 是不行的,没index_1.html这个目标,有些网站是可以。)
  原字符串:http://www.it.com.cn/edu/readme/index_{$ID}.html
  生成范围:2  To  5

  3、手动添加(注:这里不能添加:http://www.it.com.cn/edu/readme/index_1.html,理由同上)
  http://www.it.com.cn/edu/readme/index_2.html
  http://www.it.com.cn/edu/readme/index_3.html
  http://www.it.com.cn/edu/readme/index_4.html
  http://www.it.com.cn/edu/readme/index_5.html

三、项目编辑-- 采集列表

  链接开始代码: 链接结束代码:  target=_blank      (注:要找到唯一的)
  链接特殊处理:  不作处理   重新定位              (注:不知何意,请老大指教!)
  绝对链接字符:                                   (注:不知何意,请老大指教!)

  这是分析后所得到的新闻绝对链接地址:http://www.it.com.cn/f/edu/051/15/68987.htm  请查看是否正确。(注:点击后的地址是:http://127.0.0.1/Admin/target=_blank   BUG???)

四、项目编辑--采集目标内容页源码

  标题开始标记: 或:
  正文开始标记: (注:要找到唯一的)
  正文结束标记: (注:要找到唯一的)

  作者设置:   (注:这里就不说了,设置标签和采集正文的一样)
  关键字词设置: (注:同上)
  正文分页设置: (注:这里演示<设置标签>)

  设置标签
  下页开始标记:下页结束标记:>[下一页]
  分页绝对链接: (注:感觉没什么用处?不知何意,请老大指教!)

五、项目编辑--属性设置

  (注:到这一步显示出正文,说明测试采集目标成功,这里要注意的是:文中的图片显示不出来是正常的,发表后自然会显示出来)

六:项目编辑--文章属性  (注:自己设置啦~~~)

  过滤选项: (注:建议全部打上勾)

satan_zero兄的【经验之谈】几个关键:

  1. 请选择文章中独一无二、每篇必存的代码作为代码。这要看你的心思了,这关都通不过,
  嘿嘿,还是去买本有讲HTML的书或者找个教程看看

  2. 请在不要复制2005版中的代码作为标签。因为在代码视图中有些代码不可见,这应该是中鸟(嘿嘿)采集失败的原因,
  譬如:2个字节的空格的代码  ,代码视图中就看不到。
  解决办法:用记事本或者文本编辑器打开源代码看。

文件比较大,传到自己的空间里,分三部分下载:
  http://www.itcfan.com/cj/1.part1.rar
  http://www.itcfan.com/cj/2.part2.rar
  http://www.itcfan.com/cj/3.part3.rar

(0)

相关推荐

  • 采集操作使用详细说明

    一.项目编辑--基本设置 项目名称:    电脑入门                         (注:随便写) 网站名称:    it.com.cn                        (注:随便写) 网站地址:    http://www.it.com.cn             (注:随便写) 新闻列表网址:http://www.it.com.cn/edu/readme/ (注:采集网站哪个网站的网址.) 项目备注:    记得经常采集这个栏目.           (注:

  • Java操作Redis详细介绍

    1. 简介 Redis 是一个开源(BSD许可)的,内存中的key-value存储系统,它可以用作数据库.缓存和消息中间件. 2. 对key的操作 首先要建立连接Jedis jedis = new Jedis("127.0.0.1", 6379),然后就可以对string,set,zset,hash进行操作了. //对key的测试 public void keyTest() { System.out.println(jedis.flushDB()); //清空数据 System.out

  • java spring整合junit操作(有详细的分析过程)

    此博客解决了什么问题: 解决测试的时候代码冗余的问题,解决了测试工程师的编码能力可能没有开发工程师编码能力的问题,解决了junit单元测试和spring注解相结合! 测试类代码:(只给大家展示测试类的代码) public class AccountServiceTest { @Test public void testFindAll(){ //1.获取容器 ApplicationContext ac=new ClassPathXmlApplicationContext("bean.xml&quo

  • Python pymysql操作MySQL详细

    目录 1.使用 1.1 简单使用 1.2 封装工具类 1.使用 1.1 简单使用 import pymysql # 创建连接 con = pymysql.connect( host='localhost', port=3306, user='root', password='123456', database='test', charset='utf8' ) # 创建游标 cursor = con.cursor() # 执行新增SQL,返回受影响行数 row1 = cursor.execute(

  • java操作elasticsearch详细方法总结

    目录 一.前言 二.java操作es的常用模式 三.rest-api 操作 1.前置准备 2.索引相关操作api的使用 2.1  创建索引 2.2  获取索引 2.3  删除索引 3.文档常用操作api的使用 3.1  索引添加文档 3.2  修改文档 3.3  删除文档 3.4  批量添加文档 3.5  批量删除 4.文档搜索相关api的使用 4.1  查询某个索引下的所有数据 4.2  批量查询多条数据 4.3  根据条件精准查询 4.4  分页查询 4.5  查询结果按照某个字段进行排序

  • JS操作JSON详细总结

    在JS中将JSON的字符串解析成JSON数据格式,一般有两种方式: 1.一种为使用eval_r()函数. 2. 使用Function对象来进行返回解析. 在数据传输流程中,json是以文本,即字符串的形式传递的,而JS操作的是JSON对象,所以,JSON对象和JSON字符串之间的相互转换是关键.例如: JSON字符串:var str1 = '{ "name": "cxh", "sex": "man" }'; JSON对象:va

  • 基于PHP文件操作的详细诠释

    复制代码 代码如下: $path1= "E:/myphp/text.txt";if(!file_exists($path1)){ echo "文件不存在!";}else{ $handle1 = fopen($path1, 'r+') or exit("Unable to open file");// while (!feof($handle1)){//  echo fgets($handle1)."<br>";//

  • Shell中数组以及其相关操作的详细实例

    Shell中数据类型不多,比如说字符串,数字类型,数组.数组是其中比较重要的一种,其重要应用场景,可以求数组长度,元素长度,遍历其元素,元素切片,替换,删除等操作,使用非常方便. Shell中的数组不像JAVA/C,只能是一维数组,没有二维数组;数组元素大小无约束,也无需先定义数组的元素个数;但其索引则像JAVA/C/Python,从0开始,下面其常用的方式进行总结. [数组声明] 备注: 1) 不像JAVA/C等强编程语言,在赋值前必须声明:SHELL只是弱编程语言,可事先声明也可不声明: 2

  • 使用NodeJS 5分钟 连接 Redis 读写操作的详细过程

    目录 本文简介 Redis 基础 安装 写入 读取 查看所有key 删除 NodeJS 操作 Redis 初始化项目 安装 Redis 依赖 连接 写入数据 读取数据 删除 断开连接 本文简介 本文主要讲解使用 NodeJS 操作 Redis ,顺便会先带一带 Redis 基础用法. 在写本文时,使用 NPM 安装的 Redis 依赖包已经到了 4.1.0 版本了.我以前用过 2.8 ,这两个版本在用法上也是有差别的.可能一些老项目还在用老版本的依赖包.所以我会把2个版本的用法都简单讲讲. Re

  • VS2019调试C语言程序(监视操作)的详细步骤

    目录 前言 第一步设置断点: 第二步添加监视元素: 第三步调试: 总结 前言 在我们编写代码的时候我们经常是遇到与答案不符啊,数组越界啊等问题,有的时候我们的错误在一些不显眼的地方,我们发现不了,但是我们可以确定是那一部分出现了错误,这个时候我就需要去调试. 小白曾经就有一段时间很煎熬,并不知道调试的重要性,根本就没把他放在眼里,觉得自己完全OK,错误都可以找出来,但是年少轻狂,这不被打脸了. 所以在这里给大家安排一下VS2019的如何调试,如何去调出监视窗口. 第一步设置断点: 第一种方法:

随机推荐