php获取网页标题和内容函数(不包含html标签)

2025-02-26 05:00:26

代码如下:

function getPageContent($url) {

//$url='http://www.ttphp.com;

$pageinfo = array();
        $pageinfo[content_type] = '';
        $pageinfo[charset] = '';
        $pageinfo[title] = '';
        $pageinfo[description] = '';
        $pageinfo[keywords] = '';
        $pageinfo[body] = '';
        $pageinfo['httpcode'] = 200;
        $pageinfo['all'] = '';

$ch = curl_init();
        curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)");
        curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
        curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER,0);
        curl_setopt($ch, CURLOPT_TIMEOUT, 8);
        curl_setopt($ch, CURLOPT_FILETIME, 1);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
        //curl_setopt($ch, CURLOPT_HEADER, 1);
        curl_setopt($ch, CURLOPT_URL,$url);

$curl_start = microtime(true);
$store = curl_exec ($ch);

$curl_time = microtime(true) - $curl_start;
        if( curl_error($ch) ) {
            $pageinfo['httpcode'] = 505; //gate way error
            echo 'Curl error: ' . curl_error($ch) ."/n";
            return $pageinfo;
        }

//print_r(curl_getinfo($ch));
        $pageinfo['httpcode'] = curl_getinfo($ch,CURLINFO_HTTP_CODE);
        //echo curl_getinfo($ch,CURLINFO_CONTENT_TYPE)."/n";
        $pageinfo[content_type] = curl_getinfo($ch,CURLINFO_CONTENT_TYPE);
        if(intval($pageinfo['httpcode']) <> 200 or !preg_match('@text/html@',curl_getinfo($ch,CURLINFO_CONTENT_TYPE) )   ) {
                //print_r(curl_getinfo($ch) );
                //exit;
                return $pageinfo;
        }
        preg_match('/charset=([^/s/n/r]+)/i',curl_getinfo($ch,CURLINFO_CONTENT_TYPE),$matches); //从header 里取charset
        if( trim($matches[1]) ) {
            $pageinfo[charset] = trim($matches[1]);
        }
        //echo $pageinfo[charset];
        //exit;
        curl_close ($ch);
        //echo $store;

//remove javascript
        $store = preg_replace("/<mce:script.*>
        $store = preg_replace("//smUi",'',$store);
        //remove <style </<style>
        $store = preg_replace("/<style.*>(.*)<//style>/smUi",'',$store);
        //remove 中文空格
        $store = preg_replace("/　/",'',$store);
        //remove 标点符号
        //$store = preg_replace("/[/~`!@#$%^&*()_/-+={}|/[/]//;':"/</>/?/,/.//]/",'',$store);

//preg_match("/<head.*>(.*)<//head>/smUi",$store, $matches);
        //$head = $matches[1];
        //echo $head. "/n";

//charset
        if($pageinfo[charset] == '' ) {
            preg_match('@<meta.+charset=([/w/-]+)[^>]*>@i',$store,$matches);
            $pageinfo[charset] = trim($matches[1]);
        }
        //desctiption
        preg_match('@<meta/s+name=/"*description/"*/s+content/s*=/s*([^/>]+)/*>@i',$store,$matches);
        //print_r($matches);
        $desc = trim($matches[1]);
        $pageinfo[description] = str_replace("/"", '',$desc);

preg_match('@<meta/s+name=/"*keywords/"*/s+content/s*=/s*([^/>]+)/*>@i',$store,$matches);
        //print_r($matches);
        $keywords = trim($matches[1]);
        $pageinfo[keywords] = str_replace("/"", '',$keywords);

preg_match("/<title>(.*)<//title>/smUi",$store, $matches);
$pageinfo[title] = trim($matches[1]);

preg_match("/<body.*>(.*)<//body>/smUi",$store, $matches);
$pageinfo[body] = addslashes( replaceHtmlAndJs($matches[1]) ) ;
$pageinfo['all'] = addslashes( replaceHtmlAndJs($store) ) ;

//echo "charset = " . $pageinfo[charset] . "/n";

//print_r($pageinfo);
//exit;

return $pageinfo;

}

/**
* 去掉所有的HTML标记和JavaScript标记
*/
function replaceHtmlAndJs($document)
{
         $document = trim($document);
         if (strlen($document) <= 0)
         {
          return $document;
         }
         $search = array (
                                            "'<script[^>]*?>.*?
// --></mce:script>'si", // 去掉 javascript
                          "'<[///!]*?[^<>]*?>'si",          // 去掉 HTML 标记
                          "'[/r/n/s+]'",                // 去掉空白字符
                          "'&(/w+);'i"              // 替换 HTML 实体
                         );                    // 作为 PHP 代码运行

$replace = array ( "", "", "", "" );

return @preg_replace ($search, $replace, $document);

}

使用例子

代码如下:

$a = getPageContent(www.ttphp.com);
print_r($a);

PHP转换文本框内容为HTML格式的方法

本文实例讲述了PHP转换文本框内容为HTML格式的方法.分享给大家供大家参考,具体如下: 有时候我们将会用到将多行文本框中输入的内容以html格式显示出来,这样子可以保持原来的文本格式,如换行.回车等.可以通过下面的函数实现: function shtm($design_str) { $str=trim($design_str); // 取得字串同时去掉头尾空格和空回车 //$str=str_replace("<br>","",$str); // 去掉&
PHP实现HTML标签自动补全代码

一般情况下先用PHP的 strip_tags 函数去掉所有html标签,再去掉空格等,然后再用substr或者自己实现的cn_substr函数来实现截取.因为如果不先去掉html标签,直接截取出来的字符串就会有没有闭合的标签出现,有时甚至会截取在标签上面比如复制代码代码如下: </di ... 今天遇到一个内容翻页截取问题: 正文是用富文本编辑器写入的,编辑器上有个分页按钮,点击之后就往当前光标位置插入一个蓝色的复制代码代码如下: <hr /> 横线.然后php直接存入数据库.显
php自定义函数转换html标签示例

本文实例讲述了php自定义函数转换html标签的方法.分享给大家供大家参考,具体如下: <?php /* * Created on 2016-9-29 * */ $orig = "I'll \"walk\" the <b>dog</b> now"; $a = htmlentities($orig); $b = html_entity_decode($a); echo $a; // I'll "walk" the &l
PHP中HTML标签过滤技巧

在开发文章系统中正常需要用到HTML标签.JS脚本等其他脚本代码的过滤,稍微尝试了下,感觉简单的htmlspecialchars()函数的过滤效果始终不如strip_tags()函数的过滤效果好. 其中有人会说我就想还要显示点图片,那怎么办呢? 没关系,我们对文章内容进行二次处理,正则找出某个图片的地址,然后对整个布局动态调控下,将图片放到最后,其效果还有可能会达到微博或者是Q空间动态的那种效果,多一举两得啊!
php使HTML标签自动补全闭合函数代码

简单解释一些代码: 第一个 ~(<[^>]+?>)~si 这个正则是匹配<--->中的内容.简单说是所有的<标签>. 第二个 ~<([a-z0-9]+)[^/>]*?/>~si 这个正则是匹配<--/>中的内容.是单闭合标签如<br /> 第三个 ~</([a-z0-9]+)[^/>]*?>~si 这个正则是匹配</......>中的内容.也就是结束标签如</a> 第四个 ~&
PHP 修复未正常关闭的HTML标签实现代码(支持嵌套和就近闭合)

fixHtmlTag version 0.2 这个版本解决了上次遗留的问题,即就近闭合和嵌套闭合问题.具体可以看代码的注释. 复制代码代码如下: <?php /** * fixHtmlTag * * HTML标签修复函数,此函数可以修复未正确闭合的 HTML 标签 * * 由于不确定性因素太多,暂时提供两种模式"嵌套闭合模式"和 * "就近闭合模式",应该够用了. * * 这两种模式是我为了解释清楚此函数的实现而创造的两个名词, * 只需明白什么意思就行.
php去除HTML标签实例

例1.php自带的函数可以去除/删除字符串中的HTML标签/代码.strip_tags(string,allow):函数剥去 HTML.XML 以及 PHP 的标签.参数:string,必填,规定要检查的字符串:allow,选填,规定允许存在的标签,这些标签不会被删除. 复制代码代码如下: $str = '郭碗瓢盆-<span style="color:#f00;">PHP</span>'; $str1 = strip_tags($str);
php 批量替换html标签的实例代码

1.把html元素全部去掉,或者保留某几个html标签复制代码代码如下: <?php$text = '<p>Test paragraph.</p> <a href="#fragment">Other text</a>';echo strip_tags($text);echo "/n"; // Allow <p> and <a>echo str
php中将html中的br换行符转换为文本输入中的换行符

下面这几个方法将能够帮你解决这个问题. PHP版将html中的<br />换行符转换为文本框中的换行符: 复制代码代码如下: function br2nl($text){ return preg_replace('/<br\\s*?\/??>/i','',$text);} 或者: 复制代码代码如下: function br2nl($text){ $text=preg_replace('/<br\\s*?\/??>/i',chr(13),$text); r
PHP删除HTMl标签的三种解决方法

方法1:直接取出想要取出的标记复制代码代码如下: <?php //取出br标记 function strip($str){$str=str_replace("<br>","",$str);//$str=htmlspecialchars($str);return strip_tags($str);}?> 方法2.PHP 中有个 strip_tags 函数可以方便地去除 HTML 标签.echo strip_tags("
PHP将HTML转换成文本的实现代码

核心代码: <?php // $document 应包含一个 HTML 文档. // 本例将去掉 HTML 标记,javascript 代码 // 和空白字符.还会将一些通用的 // HTML 实体转换成相应的文本. $search = array ("'<script[^>]*?>.*?</script>'si", // 去掉 javascript "'<[\/\!]*?[^<>]*?>'si", //
php实现过滤表单提交中html标签的方法

本文实例讲述了php实现过滤表单提交中html标签的方法.分享给大家供大家参考.具体实现方法如下: 有时候我们做的简单评论功能会发现有提交很多的html标签,这些标签会导致页面有一些外连的情况,下面我们一起来看在php中过滤表单提交的html标签方法. 近评论中有一些机器人提交的post链接,都是一些垃圾评论.为了减少这种无谓的链接内容出现,其实是可以用php来删除表单POST提交的html标签,这样机器提交的信息也不会得到他们要的结果.而且可以减少来自seo/seo.html" target=
php过滤HTML标签、属性等正则表达式汇总

$str=preg_replace("/\s+/", " ", $str); //过滤多余回车 $str=preg_replace("/<[ ]+/si","<",$str); //过滤<__("<"号后面带空格) $str=preg_replace("/<\!--.*?-->/si","",$str); //注释 $str=p
PHP html标签正则替换并可自定义正则规则

复制代码代码如下: <?php function pregstring($str){ $strtemp = trim($str); $search = array( "|'|Uis", "|<script[^>].*?</script>|Uis", // 去掉 javascript "|\[字定义\].*\[/字定义\]|Uis", // 去掉缩略图 "|<[\/\!].*?[^<>]*

php获取网页标题和内容函数(不包含html标签)

相关推荐

随机推荐