php 采集书并合成txt格式的实现代码

<?php
/**
* @name 采集书.php
* @date Sun Mar 01 22:48:02 CST 2009
* @copyright 马永占(MyZ)
* @author 马永占(MyZ)
* @link http://blog.csdn.net/mayongzhan/
*/
//header('Content-Type:text/html;charset=utf8');
header('Content-Type:text/html;charset=gb2312');
error_reporting(E_ALL);
date_default_timezone_set('Asia/Shanghai');
set_time_limit(0);
function writer($content,$url)
{
$fp = fopen($url, 'ab');
fwrite($fp, $content);
fclose($fp);
}
$folder = '2'; //文件夹
$book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
$book_url = 'yyyyyyyyyyyyy.html';
$main = file_get_contents($book_base_url.$book_url);
preg_match_all('/chapter_.*?\.html/', $main, $pages);
$pages = array_unique($pages[0]);
foreach ($pages as $value) {
writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
$str = file_get_contents('./'.$folder.'/'.$value.'.txt');
//print_r($str);
preg_match("/(<h1>)(.*?)(<\/h1>)(.*?)(<div id=\"contTxt\" class=\"contTxt1\">)(.*?)(<\/div>)/s",$str,$arr);
//print_r($arr);die();
$arr[6] = preg_replace("/(<span[^>]+>.*?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/<p>|<\/p>/","\r\n",$arr[6]));
$result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
writer($result, './'.$folder.'/new.txt');
}
?>

(0)

相关推荐

  • php逐行读取txt文件写入数组的方法 原创

    本文实例讲述了php逐行读取txt文件写入数组的方法.分享给大家供大家参考.具体如下: 假设有user.txt文件如下: user01 user02 user03 user04 user05 user06 user07 user08 user09 user10 user11 user12 逐行读取user.txt并写入数组的方法如下: $file = fopen("username.txt", "r"); $user=array(); $i=0; //输出文本中所有

  • PHP 读取文件内容代码(txt,js等)

    <?php /* 作者:bjf; 应用:读取文件内容; */ function read_file_content($FileName) { //open file $fp=fopen($FileName,"r"); $data=""; while(!feof($fp)) { //read the file $data.=fread($fp,4096); } //close the file fclose($fp); //delete the file //u

  • PHP 处理TXT文件(打开/关闭/检查/读取)

    php文件处理:http://www.jb51.net/w3school/php/php_file.htm 复制代码 代码如下: <?php $filename=dirname(__FILE__)."/readfrom.txt"; $ofilename=dirname(__FILE__)."/writeto.txt"; if(!file_exists($filename)){ echo $filename." not found!"; ex

  • PHP逐行输出(ob_flush与flush的组合)

    ob_flush/flush在手册中的描述, 都是刷新输出缓冲区, 并且还需要配套使用, 所以会导致很多人迷惑- 其实, 他们俩的操作对象不同, 有些情况下, flush根本不做什么事情.. ob_*系列函数, 是操作PHP本身的输出缓冲区. 所以, ob_flush是刷新PHP自身的缓冲区. 而flush, 严格来讲, 这个只有在PHP做为apache的Module(handler或者filter)安装的时候, 才有实际作用. 它是刷新WebServer(可以认为特指apache)的缓冲区.

  • php读取txt文件组成SQL并插入数据库的代码(原创自Zjmainstay)

    /** * $splitChar 字段分隔符 * $file 数据文件文件名 * $table 数据库表名 * $conn 数据库连接 * $fields 数据对应的列名 * $insertType 插入操作类型,包括INSERT,REPLACE */ 复制代码 代码如下: <?php /** * $splitChar 字段分隔符 * $file 数据文件文件名 * $table 数据库表名 * $conn 数据库连接 * $fields 数据对应的列名 * $insertType 插入操作类型

  • php 批量生成html,txt文件的实现代码

    首先建立一个conn.php的文件用来链接数据库 复制代码 代码如下: <?php    $link = mysql_connect("mysql_host" , "mysql_user" , "mysql_password" )or die("Could not connect : " . mysql_error());     mysql_query("set names utf8");    

  • 浅析php fwrite写入txt文件的时候用 \r\n不能换行的问题

    今天遇到了一个问题就是用fwrite写入txt文件的时候用 rn不能换行试了很久都没找到办法!突然之间想到一个东东以前看书见过后来还是用这个东东给解决了!现在写出来预防将来忘记也希望能帮到需要帮助的朋友!直接看代码: 复制代码 代码如下: <?php$stream = fopen("robots.txt", "w+");fwrite($stream, "你换行了吗\r\n我已经换行了!");?>

  • PHP读取txt文件的内容并赋值给数组的代码

    2010-12-15.txt的文件内容如下: 复制代码 代码如下: 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 T01 T02 T03 T04 T05 T06 T07 T08 T09 T10 T11 T12 T13 T14 T15 T16 思路如下:使用file_get_contents()获取txt文件的内容,然后通过explode()把获得的字符串转化为数组.获得数组长度可以使用count()

  • PHP读取txt文本文件并分页显示的方法

    本文实例讲述了PHP读取txt文本文件并分页显示的方法.分享给大家供大家参考.具体实现方法如下: 复制代码 代码如下: <?php     session_start();     if (empty($page)) {$page=1;}     if (isset($_GET['page'])==TRUE) {$page=$_GET['page']; } ?> <html> <head> <meta http-equiv="Content-Type&q

  • php 采集书并合成txt格式的实现代码

    <?php /** * @name 采集书.php * @date Sun Mar 01 22:48:02 CST 2009 * @copyright 马永占(MyZ) * @author 马永占(MyZ) * @link http://blog.csdn.net/mayongzhan/ */ //header('Content-Type:text/html;charset=utf8'); header('Content-Type:text/html;charset=gb2312'); erro

  • Python实现xml格式转txt格式的示例代码

    目录 1.前言 2.分析xml.txt数据 3.转换过程 4.最后结果对比 1.前言 最近学习Yolo v5是遇见了个问题,找的数据集全是xml文件,VOC 的标注是 xml 格式的,而YOLO是.txt格式,那么问题就来了,手动提取肯定是不可能的,那只能借用程序解决咯. 2.分析xml.txt数据 这是xml树形结构 这是txt格式 总结: 1.提取object->name.bndbox->xmin,ymin,xmax,ymin 2.格式转化需要用公式转换 YOLO数据集txt格式: x_c

  • 如何利用Python打开txt格式的文件

    目录 一.Pythont如何打开 txt 格式的文件? 二.什么是相对路径,什么是绝对路径? 三.如何进行逐行提取数据? 四.创建一个包含文件各行内容的列表 总结 一.Pythont如何打开 txt 格式的文件? 1.首先我使用pycharm创建一个项目,然后在这个项目里面再创建一个python的包,然后在里面创建一个demo1.txt的文件吗,里面写一些我看过的小说,然后使用python对这个txt文件进行内容的读取. txt的内容如下: 这一个txt文件的创建是和.py文件创建在同样的一个包

  • pycharm 创建py文件总是为txt格式的问题及解决

    目录 创建py文件总是为txt格式问题 记录 解决方法 py文件一直显示txt 文本格式,重建也还是文本格式 解决方法 创建py文件总是为txt格式问题 记录 写代码过程中创建.py文件时,一直正常,但创建名称为train.py文件时总是为txt格式,即使选择了python file,也有了.py后缀. (看了教程说File-setting-F) 解决方法 File-File Properties-Associate with File Type 然后可以看到train.py绑定了类型text,

  • jQuery判断邮箱格式对错实例代码讲解

    废话不多说了,具体代码如下所示: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>检测Email地址格式是否正确</title> <script src="http://apps.bdimg.com/libs/jquery/1.10.2/jquery.min.js"><

  • php采集自中央气象台范围覆盖全国的天气预报代码实例

    本文实例讲述了php采集自中央气象台范围覆盖全国的天气预报代码.分享给大家供大家参考.具体分析如下: 天气预报信息采集自中央气象台,信息准确,覆盖面广,代码简单,返回是json代码,可以用于客户端调用,也可以在服务器端处理后显示,笔者的wordpress天气预报插件就是使用的这段代码,需要注意的是,这段代码会在服务器产生缓存文件,需要在当前目录中新建data文件夹,保证文件夹可写. php天气预报代码如下: 复制代码 代码如下: /* 作者:    freemouse 主页:    www.cn

  • js获取当前年月日-YYYYmmDD格式的实现代码

    js获取当前年月日-YYYYmmDD格式的实现代码 var nowDate = new Date(); var year = nowDate.getFullYear(); var month = nowDate.getMonth() + 1 < 10 ? "0" + (nowDate.getMonth() + 1) : nowDate.getMonth() + 1; var day = nowDate.getDate() < 10 ? "0" + now

  • vue.js将时间戳转化为日期格式的实现代码

    看看下面的代码吧,具体代码如下所示: <!-- value 格式为13位unix时间戳 --> <!-- 10位unix时间戳可通过value*1000转换为13位格式 --> export function formatDate (date, fmt) { if (/(y+)/.test(fmt)) { fmt = fmt.replace(RegExp.$1, (date.getFullYear() + '').substr(4 - RegExp.$1.length)); } l

  • Java判断上传图片格式的实例代码

    先给大家介绍下java判断上传图片格式. 由于客户上传图片将png的图片的后缀名改为jpg,所以通过后缀名判断不行,用下面这个方法可以 //判断是否是JPG格式 log.info("-1----进入JPG格式判断....."); ImageInputStream iis = ImageIO.createImageInputStream(file.getInputStream()); Iterator<ImageReader> iter = ImageIO.getImageR

  • JS 正则表达式验证密码、邮箱格式的实例代码

    遗憾的是博客内容不允许包含js代码,不能在线测试,就只上代码了 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>Regular Expression test</title> </head> <body> 用户名:(4-16位,字母.下划线.数字,减号) <br/> <input type="

随机推荐