php 文章采集正则代码

2025-03-28 19:24:56

代码如下:

//采集html
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}

//获得标题和url
$string =
getwebcontent('http://www.***.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//正则匹配<li>获取标题和地址
preg_match_all ("/<li><a href=\"\/learn\/article\/(.*)\">(.*)<\/a>/",$string, $out, PREG_SET_ORDER);
foreach($out as $key => $value){
$article['title'][] = $out[$key][2];
$article['link'][] = "http://www.***.com/learn/article/".$out[$key][1];
}
//根据url获取文章内容
foreach($article['link'] as $key=>$value){
$content_html = getwebcontent($article['link'][$key]);
preg_match("/<div id=pagenum_0(.*)>[\s|\S]*?<\/div>/",$content_html,$matches);
$article[content][$key] = $matches[0];

}
//不转码还真不能保存成文件
foreach($article[title] as $key=>$value){
$article[title][$key] = iconv('utf-8', 'gbk', $value);//转码
}
//存入文件
$num = count($article['title']);
for($i=0; $i<$num; $i++){
file_put_contents("{$article[title][$i]}.txt", $article['content'][$i]);
}
?>

php 文章采集正则代码

复制代码代码如下: //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOW
python自动获取微信公众号最新文章的实现代码

目录微信公众号获取思路采集实例微信公众号获取思路常用的微信公众号文章获取方法有搜狐.微信公众号主页获取和api接口等多个方法.听说搜狐最近不怎么好用了,之前用的api接口也频繁维护,所以用了微信公众平台来进行数据爬取.首先登陆自己的微信公众平台,没有账号的可以注册一个.进来之后找“图文信息”,就是写公众号的地方点进去后就是写公众号文章的界面,在界面中找到“超链接” 的字段,在这里就可以对其他的公众号进行检索. 以“python”为例,输入要检索的公众号名称,在显示的公众号中选择要采集的
微信小程序获取公众号文章列表及显示文章的示例代码

微信小程序中如何打开公众号中的文章,步骤相对来说不麻烦. 1.公众号设置小程序若要获取公众号的素材,公众号需要做一些设置. 1.1 绑定小程序公众号需要绑定目标小程序,否则无法打开公众号的文章. 在公众号管理界面,点击小程序管理 --> 关联小程序输入小程序的AppID搜索,绑定即可. 1.2 公众号开发者功能配置 (1) 在公众号管理界面,点击开发模块中的基本配置选项. (2) 开启开发者秘密(AppSecret),注意保存改秘密. (3) 设置ip白名单,这个就是发起请求的机器的外网i
用好anyproxy提高公众号文章采集效率

影响因素主要会有以下几点: 1.网络环境不佳: 2.手机或模拟器中微信客户端崩溃: 3.其它一些网络传输错误: 因为我比较看重采集系统的运行成本,这个成本包括硬件投入,运算力投入和占用的人工精力.所以必须提高运行的稳定性.因此如果采集中断,必然增加人工精力的成本.所以针对这一点我对anyproxy做了一些进阶的改造,并且借助了其它一些工具提高了运行效率.以下就是具体的解决方法: 一.代码升级 1)微信浏览器白屏解决方法:修改文件requestHandler.js,还是在rule_default
PHP文章采集URL补全函数(FormatUrl)

写采集必用的函数,URL补全函数,也可叫做FormatUrl. 写此函数作用就是为了开发采集程序,采集文章的时候会经常遇到页面里的路径是 "相对路径" 或者 "绝对根路径" 不是"绝对全路径"就无法收集URL. 所以,就需要本功能函数进行对代码进行格式化,把所有的超链接都格式化一遍,这样就可以直接收集到正确的URL了. 路径知识普及相对路径:"../" "./" 或者前面什么都不加绝对根路径:/path
php知道与问问的采集插件代码

最近发现知道和问问小偷的版本越来越多了!! 看过一个百度小偷的网站也达到了pr6.收录十万多!! 在经过荐礼啦四十天的实践之后发现百度对这个确实挺友好的. 从网站访问来看很多也是从百度搜索来的! 所以用知道和问问来填充网站内容还是可行的. 于是自己开发了一个知道问问的采集插件原则上适合 php+mysql 并且文章是在一个表的程序知道采集代码复制代码代码如下: <?php session_start(); header("content-type:text/html;ch
asp提取内容中的手机号码,qq,网址的正则代码

常用的正则匹配表达式正则表达式--验证手机号码:13[0-9]{9} 实现手机号前带86或是+86的情况:^((\+86)|(86))?(13)\d{9}$ 电话号码与手机号码同时验证:(^(\d{3,4}-)?\d{7,8})$|(13[0-9]{9}) 提取信息中的网络链接:(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)? 提取信息中的邮件地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+
php 文章调用类代码

调用方法如下: 复制代码代码如下: $Template= '<li class="xxx">[<a href="{catedir}">{catetitle}</a>]<a href="{html}" title="{title}" >{title|6}{title2|20}</a>点击数:{hits} 日期:{posttime|H:i:s}</li>';
自动生成文章摘要的代码[PHP 版本]

实现内容:截断一段含有HTML代码的文本,但是不会出现围堵标记没有封闭的问题. 说明:这是PHP版的,用于在服务器端使用,如果你需要一个客户端版的,请阅读下一篇我们在写BLOG这样的程序时经常需要显示文章前一部分的,但是又怕不恰当的截断破坏封闭标签以造成整个文档结构破坏,使用我的函数可以在要求不高的情况下解决这个问题. 大家应该考虑这个函数在服务端应用还是在客户端应用.因为我考虑这个函数可能运行起来比较费机器,所以安全性要求不高的情况下可以放在客户端上. 最好数据表中单独一个字段放这个摘要,
php添加文章时生成静态HTML文章的实现代码

PHP生成静态文章HTML,有批量的生成,但比较标准的应该是在添加文章时就生成HTML文章,编辑时再重新生成HTML文章,删除文章时同样也样删除多余出来的HTML文章,这时批量生成就显得有点力不从心了,下面就介绍一下PHP在添加文章时如何生成静态的HTML文件. 简单的添加文章表单这里就不写了,下面的这些源码是接受表单传过来的值而执行的程序源码,可以先拿过去测试一下... 复制代码代码如下: <?php ob_start(); require_once("../inc/conn.php&

php 文章采集正则代码

相关推荐

随机推荐