火车采集器 免费版使出收费版本功能实现原理
hi 各位免费火车头采集器的采友:
火车头免费版本不支持采集结果的外挂处理,比如采用php来辅助处理结果,而火车头本身对于正则表达式的不完整支持,
导致对于采集一些有混淆文字的内容效果不好,那么咱们怎么做到过滤那些混淆字串呢?
其实很简单--采用服务器端过滤
比如采集发送到服务器端是:
$_POST = array("subject"=> "这里是标题","content"=> "<div class='1fadfafasfasdf'>混淆文字</div>这里是内容");
在服务器端我们稍加处理:
$_POST["content"] = preg_replace("正则表达式","",$_POST["content"]);
就可以使用熟悉的工具完成工作。
有朋友说了,我服务器端代码是加密的怎么办?
其实很简单 比如 add.php 加密 ,那么将add.php 改名为 add_ori.php
然后建立新的 add.php
<?
//处理上传来的数据
....
include dirname(__FILE__)."/add_ori.php";
?>
这样就可以了
相关推荐
-
火车采集器 免费版使出收费版本功能实现原理
hi 各位免费火车头采集器的采友: 火车头免费版本不支持采集结果的外挂处理,比如采用php来辅助处理结果,而火车头本身对于正则表达式的不完整支持, 导致对于采集一些有混淆文字的内容效果不好,那么咱们怎么做到过滤那些混淆字串呢? 其实很简单--采用服务器端过滤 比如采集发送到服务器端是: $_POST = array("subject"=> "这里是标题","content"=> "<div class='1fadfaf
-
20070910更新的火车采集器3.2正式版发布下载
火车头团队一直致力于为广大网站站点提供数据信息和实用的工具软件, 开发团队秉承"专业,专注,沉着,创新"的理念,用实力铸造精品. 经过2007年3月至2007年9月,近5个多个月的研发及几个版本的内部测试,一个具有全新内核和架构的强大信息采集,数据加工软件--火车采集器3.2版 呈献在大家面前,为始终支持和关爱火车软件发展的站长们献上一份谢礼. 火车采集器1.X-3.X一直免费使用并深受广大站长欢迎,通过大家对3.2测试版的反馈,无论在性能,功能和稳定性上面3.2都是以前版本无法比拟的
-
火车头采集器3.0采集图文教程
以采集示例详解部分功能今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始.如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维:如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间.以下是一些采集的基本步骤,您可以灵活运用:一.建立站点1.请先打开火车采集器,新建站点,看下图:为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图大部分的站点,通
-
利用PHP制作简单的内容采集器的代码
采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的.关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的. 前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展. 用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网
-
利用PHP制作简单的内容采集器的原理分析
前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展. 用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网页内容的,不过只在php5以上的版本才能用,后一个是正则函数,用来提取需要的内容的. 下面就一步一步来讲功能实现. 因为是采集小说,所以首先要将书名.作者.类型这三个提取出来,别的信息可根据需要提取. 这里以
-
详解Opentelemetry Collector采集器
目录 前言 客户端数据上报 OTLP OTLP/HTTP OTLP/gRPC Collector Collector简介 Collector使用 Receiver Processor Exportor Extension Service 个性化的Collector 总结 前言 上个篇章中我们主要介绍了OpenTelemetry的客户端的一些数据生成方式,但是客户端的数据最终还是要发送到服务端来进行统一的采集整合,这样才能看到完整的调用链,metrics等信息.因此在这个篇章中会主要介绍服务端的采
-
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
-------------------------------------------------------- 风十三 落伍首发 转载请注明作者和出处 ------------------------------------------------------ 1.如何修改默认发布为动态页: 这个其实很简单,会改html就可以了!把dede文件夹打开,用编辑器打开article_add.php,找到<td width="90">发布选项:</td>
-
淘宝IP地址库采集器c#代码
采集器概貌,如下: 最近做一个项目,功能类似于CNZZ站长统计功能,要求显示Ip所在的省份市区/提供商等信息.网上的Ip纯真数据库,下载下来一看,发现没提供商内容,省市区都很少,居然有XXX网吧,哥瞬间倒了.没标准化.并且杂乱.还不连续的IP段.总体说来没达到要求. 在百度上找啊找,找到淘宝Ip地址库,官方介绍的相当诱人,准确率高,数据质量有保障,提供国家.省.市.县.运营商全方位信息,信息维度广,格式规范,但是限制每秒10次的访问(这个比较无语). 淘宝IP地址库,提供API http:
-
颜色快速采集器javascript代码
把下面代码 保存为:color.htm 即可 颜色快速采集器 function ChangeColor(form, ColorName) { var ColorValue = " "; if (ColorName == 'aliceblue') ColorValue = "#F0F8FF"; if (ColorName == 'antiquewhite') ColorValue = "#FAEBD7"; if (ColorName == 'aqu
-
关关小说采集器[杰奇]采集出错的修正方法
最近突然喜欢上了小说站,呵呵,用关关小说采集器采集了一下,感觉不错! 但是在 采集 内容是图片 的小说时,出现错误,如下提示: #HY000Incorrect integer value: ' null ' for column ' attachid ' at row 1 的错误! 经过寻找发现修改办法是如下图:修改即可
随机推荐
- AngularJS ng-repeat指令中使用track by子语句解决重复数据遍历错误问题
- extjs grid设置某列背景颜色和字体颜色的方法
- html+js+highcharts绘制圆饼图表的简单实例
- vb.net发布水晶报表程序步骤
- 提供Vista全驱动下载
- PHP的Yii框架中行为的定义与绑定方法讲解
- C#实现网页截图功能
- php获取mysql数据库中的所有表名的代码
- MySQL 5.7双主同步部分表的实现过程详解
- Python利用BeautifulSoup解析Html的方法示例
- Asp操作Xml的精炼类,含示例代码
- c# 实现窗体拖到屏幕边缘自动隐藏
- 使用原生js写ajax实例(推荐)
- JavaScript 原型链学习总结
- Shell脚本统计文件行数的8种方法
- jQuery实现页面点击后退弹出提示框的方法
- js实现遍历含有input的table实例
- 用JavaScript实现仿Windows关机效果
- WPF/Silverlight实现图片局部放大的方法分析
- C# ManualResetEvent使用方法详解