PHP 采集程序中常用的函数

代码如下:

//获得当前的脚本网址
function get_php_url()
{
if(!empty($_SERVER[”REQUEST_URI”]))
{
$scriptName = $_SERVER[”REQUEST_URI”];
$nowurl = $scriptName;
}
else
{
$scriptName = $_SERVER[”PHP_SELF”];
if(empty($_SERVER[”QUERY_STRING”]))
$nowurl = $scriptName;
else
$nowurl = $scriptName.”?”.$_SERVER[”QUERY_STRING”];
}
return $nowurl;
}

//把全角数字转为半角数字
function GetAlabNum($fnum)
{
$nums = array(”0”,”1”,”2”,”3”,”4”,”5”,”6”,”7”,”8”,”9”);
$fnums = “0123456789″;
for($i=0;$i<=9;$i++) $fnum = str_replace($nums[$i],$fnums[$i],$fnum);
$fnum = ereg_replace(”[^0-9\.]|^0{1,}”,””,$fnum);
if($fnum==””) $fnum=0;
return $fnum;
}

//去除HTML标记
function Text2Html($txt)
{
$txt = str_replace(” “,” ”,$txt);
$txt = str_replace(”<”,”<”,$txt);
$txt = str_replace(”>”,”>”,$txt);
$txt = preg_replace(”/[\r\n]{1,}/isU”,”<br/>\r\n”,$txt);
return $txt;
}

//清除HTML标记
function ClearHtml($str)
{
$str = str_replace('<','<',$str);
$str = str_replace('>','>',$str);
return $str;
}

//相对路径转化成绝对路径
function relative_to_absolute($content, $feed_url)
{
preg_match('/(http|https|ftp):\/\//', $feed_url, $protocol);
$server_url = preg_replace(”/(http|https|ftp|news):\/\//”, “”, $feed_url);
$server_url = preg_replace(”/\/.*/”, “”, $server_url);

if ($server_url == ”)
{
return $content;
}

if (isset($protocol[0]))
{
$new_content = preg_replace('/href=”\//', ‘href=”‘.$protocol[0].$server_url.'/', $content);
$new_content = preg_replace('/src=”\//', 'src=”‘.$protocol[0].$server_url.'/', $new_content);
}
else
{
$new_content = $content;
}
return $new_content;
}
//取得所有链接
function get_all_url($code){
preg_match_all('/<a\s+href=[”|\']?([^>”\' ]+)[”|\']?\s*[^>]*>([^>]+)<\/a>/i',$code,$arr);
return array('name'=>$arr[2],'url'=>$arr[1]);
}

//获取指定标记中的内容
function get_tag_data($str, $start, $end)
{
if ( $start == ” || $end == ” )
{
return;
}
$str = explode($start, $str);
$str = explode($end, $str[1]);
return $str[0];
}

//HTML表格的每行转为CSV格式数组
function get_tr_array($table)
{
$table = preg_replace(”‘<td[^>]*?>'si”,'”‘,$table);
$table = str_replace(”</td>”,'”,',$table);
$table = str_replace(”</tr>”,”{tr}”,$table);
//去掉 HTML 标记
$table = preg_replace(”‘<[\/\!]*?[^<>]*?>'si”,””,$table);
//去掉空白字符
$table = preg_replace(”‘([\r\n])[\s]+'”,””,$table);
$table = str_replace(” “,””,$table);
$table = str_replace(” “,””,$table);
$table = explode(”,{tr}”,$table);
array_pop($table);
return $table;
}

//将HTML表格的每行每列转为数组,采集表格数据
function get_td_array($table)
{
$table = preg_replace(”‘<table[^>]*?>'si”,””,$table);
$table = preg_replace(”‘<tr[^>]*?>'si”,””,$table);
$table = preg_replace(”‘<td[^>]*?>'si”,””,$table);
$table = str_replace(”</tr>”,”{tr}”,$table);
$table = str_replace(”</td>”,”{td}”,$table);
//去掉 HTML 标记
$table = preg_replace(”‘<[\/\!]*?[^<>]*?>'si”,””,$table);
//去掉空白字符
$table = preg_replace(”‘([\r\n])[\s]+'”,””,$table);
$table = str_replace(” “,””,$table);
$table = str_replace(” “,””,$table);

$table = explode('{tr}', $table);
array_pop($table);
foreach ($table as $key=>$tr)
{
$td = explode('{td}', $tr);
array_pop($td);
$td_array[] = $td;
}
return $td_array;
}

//返回字符串中的所有单词 $distinct=true 去除重复
function split_en_str($str,$distinct=true)
{
preg_match_all('/([a-zA-Z]+)/',$str,$match);
if ($distinct == true)
{
$match[1] = array_unique($match[1]);
}
sort($match[1]);
return $match[1];
}

(0)

相关推荐

  • PHP 采集程序中常用的函数

    复制代码 代码如下: //获得当前的脚本网址 function get_php_url() { if(!empty($_SERVER["REQUEST_URI"])) { $scriptName = $_SERVER["REQUEST_URI"]; $nowurl = $scriptName; } else { $scriptName = $_SERVER["PHP_SELF"]; if(empty($_SERVER["QUERY_ST

  • ASP.NET程序中常用代码汇总

    1. 打开新的窗口并传送参数: //传送参数: response.write("<script>window.open('*.aspx?id="+this.DropDownList1.SelectIndex+"&id1="++"')</script>") //接收参数: string a = Request.QueryString("id"); string b = Request.QueryS

  • 详解JavaScript中常用的函数类型

    网页中的java代码需要写在JavaScript中,里面部分少不了函数,介绍一下JavaScript中常用的函数类型. 1.可变函数 <script> function show(){ alert("第一个..."); } function show(str){ alert("第二个"); } function show(a,b){ alert("第三个..."); alert(a+":"+b); } </s

  • 小程序中的箭头函数的具体使用

    这个是ES6的箭头函数,res =>可以理解为function(res) 箭头函数的最大好处就是省略了var that=this 从而将this改为静态. var 函数名 = 参数名 => 返回值; var f = v => v; //等同于 var f = function(v){ return v; }; 如果不需要参数或有多个参数,要使用圆括号 var f = () => 5; var sum = (num1,num2) => num1+num2; 如果函数的代码多于一

  • SQL SERVER中常用日期函数的具体使用

    1 GETDATE() 返回当前系统日期 SELECT GETDATE() 2 DATEADD(日期部分,常数,日期) 返回将日期的指定日期部分加常数后的结果返回 常数为正 SELECT DATEADD(YY,1,GETDATE()) 等同于 SELECT DATEADD(YEAR,1,GETDATE()) 常数为负数 SELECT DATEADD(YY,-2,GETDATE()) 常数为小数(直接舍去小数部分) SELECT DATEADD(YY,2.4,GETDATE()) SELECT D

  • Python数据分析Numpy中常用相关性函数

    目录 摘要: 一.股票相关性分析 二.多项式 三.求极值的知识 摘要: NumPy中包含大量的函数,这些函数的设计初衷是能更方便地使用,掌握解这些函数,可以提升自己的工作效率.这些函数包括数组元素的选取和多项式运算等.下面通过实例进行详细了解. 前述通过对某公司股票的收盘价的分析,了解了某些Numpy的一些函数.通常实际中,某公司的股价被另外一家公司的股价紧紧跟随,它们可能是同领域的竞争对手,也可能是同一公司下的不同的子公司.可能因两家公司经营的业务类型相同,面临同样的挑战,需要相同的原料和资源

  • 程序中常用的种代码

    1. 打开新的窗口并传送参数:  传送参数: response.write("<script>window.open('*.aspx?id="+this.DropDownList1.SelectIndex+"&id1="+...+"')</script>") 接收参数: string a = Request.QueryString("id"); string b = Request.QueryS

  • ASP中常用的函数和详细说明第1/2页

    各位都把ASP用的函数和详细说明贴出来,供大家学习. 我知道的如下: 1.函数array() 功能:创建一个数组变量 格式:array(list) 参数:list 为数组变量中的每个数值列,中间用逗号间隔 例子: <% i = array ("1","2","3") %> 结果: i 被赋予为数组 2.函数Cint() 功能:将一表达式/其它类型的变量转换成整数类型(int) 格式:Cint(expression) 参数:expres

  • jquery中常用的函数和属性详细解析

    Dom:Attribute:属性$("p").addClass(css中定义的样式类型); 给某个元素添加样式$("img").attr({src:"test.jpg",title:"test Image"}); 给某个元素添加属性/值,参数是map$("input").attr({"checked", "checked"}); $("img").

  • ASP程序中常用的脚本语言

    在浏览器中通过查看源代码的方式是无法看到ASP源代码的,你只能看到由ASP文件输出的结果,而那些只是纯粹的HTML而已.这是因为,在结果被送回浏览器前,脚本已经在服务器执行了. 实例: 用ASP写文本 以下为引用的内容: <html> <body> <% response.write("Hello World!") %> </body> </html> 向文本添加HTML 以下为引用的内容: <html> <

随机推荐