在Python下使用Txt2Html实现网页过滤代理的教程

2025-02-17 05:01:10

在撰写本 developerWorks 系列文章的过程中，我曾遇到过以最佳格式进行撰写的问题。文字处理程序格式都是专用的，在格式之间转换总不能尽如人意，也很麻烦（而且每种格式都会各自将文档绑定到不同的专用工具，这种情况又与开放源码的精神相违背）。HTML 还算中立 -- 也许您现在阅读的文章正是这种格式 -- 但它也添加了标记，而这些标记很容易引起误输入（或者使人束缚于 HTML 增强型编辑器）。DocBook 是一种有趣的 XML 格式，它可以转换成许多目标格式，并且它拥有技术文章（或书籍）的正确语义；但就像 HTML 一样，在撰写过程中会担心许多标记。LaTeX 特别适合复杂的印刷格式；但它也有许多标记，而这些文章并不需要复杂的印刷格式。

为了在写作时能真正省心 -- 特别是要具有平台和工具的中立性 -- 无格式 ASCII 正是最好的选择。但是，因特网（特别是 Usenet）建议在完全无格式文本的基础上，开发一种“智能 ASCII”文档的非正式标准（请参阅参考资料）。“智能 ASCII”只添加了一点额外的语义内容和上下文，而且它们在文本显示中看起来是那么“自然”。电子邮件、新闻组邮件、FAQ、项目自述文件 (README) 和其它电子文档通常包括一些印刷／语义元素，如强调字前后的星号、标题下的下划线、描述文本关系的竖直和水平空格、有选择性的全大写和其它一些信息。Project Gutenberg（请参阅参考资料）是一种惊人的成果，它将许多想法加入其自身格式构思中，并认为“智能 ASCII”是长时间保存和分发好书的最佳选择。即使这些文章不会像文学名著那样经久不衰，仍决定将它们写成“智能 ASCII”格式，并用方便的 Python 脚本将它们自动转换成其它格式。
介绍 Txt2Html

Txt2Html 最初是一个简单的文件转换器，从其名称上就可以看出。但因特网建议在工具上添加几个明显的增强功能。因为有许多读者想以“HTML 化”格式查看的文档都在 http: 或 ftp: 链接的后面，所以工具应该真正直接处理这样的远程文档（而不需要下载／转换／查看循环周期）。因为转换的目标最终是 HTML，通常我们要做的就是在 Web 浏览器中查看转换后的目标文档。

将这些放到一起后，Txt2Html 就成了“基于 Web 的过滤代理”。这个词很奇特，也许恰好能“完全表达其含义”。它们体现了以下想法：程序代表您阅读 Web 页面（或其它资源），以某种方式处理内容，然后以某种比原始页面更好的形式（至少能满足某些特殊目的）向您显示该页面。这种工具的一个很好例子就是 Babelfish 翻译服务（请参阅参考资料）。在通过 Babelfish 运行了 URL 之后，您看到的 Web 页面与原始页面非常相似，但它显示了您能够读懂的文字，而不是您不理解的语言。在某种程度上，所有显示搜索结果页面摘要的搜索引擎所做的都是相同的事情。但那些搜索引擎（按设计）在目标页面的格式以及外观方面有更多的自由度，同时会去掉许多内容。当然，Txt2Html 并不如 Babelfish 那样功能强大；但概念上，它们很大程度上完成相同的事情。请参阅参考资料以获取更多的例子，其中一些还很幽默。

Txt2Html 最大的优点是使用许多编程技巧，而这些技巧对于不同面向 Web 使用 Python 是共通的。本文将介绍那些技巧，并会说明编码技巧和一些 Python 模块的作用域。请注意：Txt2Html 中的实际模块叫做 dmTxt2Html，以避免与其他人编写的模块名称发生冲突。

使用 cgi 模块

Python 标准发行版中的 cgi 模块对于任何用 Python 开发“公共网关接口”应用程序的人来说都是意外惊喜。可以不使用它来创建 CGI，但您不会这样做。

最通常的情况下，您会通过 HTML 表单与 CGI 应用程序进行交互。要填写调用 CGI 的表单以执行使用规范的操作。例如，Txt2Html 文档使用这个例子来调用 HTML 表单（Txt2Html 自身生成的表单比较复杂，并且可能会改变，但示例将会很好地工作，甚至是在您自己的 Web 页面中）：
调用 'Txt2Html' 的 HTML 表单

可以在 HTML 表单中包括许多输入字段，而字段可以是许多不同类型中的一种（文本、复选框、单选列表、单选按钮等）。任何讲述 HTML 的好书可以帮助初学者创建定制 HTML 表单。此处最需要牢记的是每个字段都有名称属性，而以后会在 CGI 脚本中使用该名称来引用该字段。另一个需要了解的细节是表单可以使用以下两种方法中的一种："get" 和 "post"。它们的基本差异是 "get" 在 URL 中包括了查询信息，并且这个方法使用户易于保存特定查询以便日后重复使用。另一方面，如果您不希望用户保存查询，请使用 "post" 方法。

以上表单调用的 Python 脚本将导入 cgi 以使整理其调用表单变得更容易。这个模块所做的一件事就是隐藏 CGI 脚本中 "get" 和 "post" 方法之间差异的任何细节。在进行调用之前，这并不是 CGI 创建程序需要操心的细节。该 CGI 模块的主要作用是处理类似于字典样式的调用 HTML 表单中的所有字段。您所得到的并不是真正的 Python 字典，但它们的使用方式极其相似：
使用 Python [cgi] 模块

import
     cgi, sys
  cfg_dict = {
    'target':
    '<STDOUT>'}
  sys.stderr = sys.stdout
  form = cgi.FieldStorage()

    if
     form.has_key(
    'source'):
   cfg_dict[
    'source'] = form[
    'source'].value

在以上几行中，要注意几处细节。我们所使用的一个技巧是设置 sys.stderr = sys.stdout。如果我们的脚本遇到了一个未捕获的错误，通过这个操作，追溯就显示回到客户机浏览器。这可以节省许多调试 CGI 应用程序的时间。但您也许不想让用户看到这些（或者如果它们可能向您报告问题详细信息，您也许会向用户显示这些内容）。接着，我们将 HTML 表单值读取到类似于字典的 form 实例中。表单有一个 .has_key() 方法，这与真正的 Python 字典非常相似。但是，与 Python 字典不同，要真正获取键中的值，我们必须查看键的 .value 属性。

至此，HTML 表单中的所有东西都成了纯 Python 变量，而且我们可以在其它任何 Python 程序中处理它们。

使用 urllib 模块

就像大多数 Python 模块一样，urllib 以直观且简单的方法处理许多复杂事物。urllib 中的 urlopen() 函数可以处理任何远程资源 -- 无论是 http:、ftp: 还是 gopher: --就将它当作是本地文件。如果使用 urlopen() 抓取了一个远程（伪）文件对象，可以将它当作本地（只读）文件的文件对象来进行处理：
使用 Python [urllib] 模块

from
     urllib
    import
     urlopen

    import
     string
  source = cfg_dict[
    'source']

    if
     source ==
    '<STDIN>':
   fhin = sys.stdin

    else
    :

    try
    :
   fhin = urlopen(source)

    except
    :
   ErrReport(source+
    ' could not be opened!', cfg_dict)

    return

     doc =
    ''

    for
     line
    in
     fhin.readlines():
    # Need to normalize line endings!
   doc = doc+string.rstrip(line)+
    '\n'

我曾遇到过一个小问题，由于生成资源的平台和您的平台使用不同的行结束约定，生成的文本中可能会发生某些奇怪的事（这似乎是 urllib 中的错误）。这个问题的解决方法是在以上代码中执行小小的 .readlines() 循环。不管该资源原来是什么样子，这个操作会给您一个字符串，它都有所使用平台的正确行结束约定（估计可能合理）。

使用 re 模块

由于本文篇幅限制，这里只讨论一部分规则表达式。参考资料中列出了许多关于该主题的参考书籍。 re 模块在 Txt2Html 中的使用很广泛，用于标识源文本中的各种文本模式。我们查看一个比较复杂的例子：
使用 Python [re] 模块

import
     re

    def
      URLify
    (txt):
   txt = re.sub(
    '((?:http|ftp|gopher|file)://(?:[^ \n\r<\)]+))(\s)',

    '<a href="\\1">\\1</a>\\2', txt)

    return
     txt

URLify() 是一个小巧函数，它的功能正如其名称所示。如果在“智能 ASCII”文件中遇到了类似于 URL 的字符串，它将转换成 HTML 输出中同一个 URL 真正的热链接。让我们看看 re.sub() 的作用。首先，从最主要的角度来看，函数的目的是“查找与第一个模式中的值匹配的字符串，然后通过将第三个变量作为要操作的字符串，以第二个模式替换匹配结果”。非常好，从这些角度来看，它与 string.replace() 没有什么区别。

第一个模式有几个元素。首先，请注意括号：最高层次由两对括号组成：(\S) 前复杂的字符串。括号对与可能组成部分替换模式的“子表达式”匹配。第二个子表达式 (\s) 只表示“查找与任何空格字符匹配的字符串，让我们回过来看什么与之匹配”。因此，让我们研究一下第一个子表达式。

Python 规则表达式有它自己的一些技巧。其中一个技巧是子表达式开始处的 ?: 运算符。这表示“查找子模式的匹配字符串，但不包括反向引用中的匹配结果”。那么，让我们检查一下这个子表达式：

((?:http|ftp|gopher|file)://(?:[^ \n\r<\)]+))。

首先，请注意这个子表达式本身由两个子表达式组成，两者之间的字符并不属于任何一方。但是，每个子表达式都由 ?: 开头，它表示这两者匹配，但不是为了满足引用目的。第一个“非引用”子表达式只表示“查找类似于 http 或ftp 或其它值的字符串”。接着，我们看到字符串 :// ，它表示查找与它完全相似的字符串（简单吗？）。最后，我们看到第二个子表达式，它除了有由方括号组成的“不引用”运算符外，还有一个加号。

在规则表达式中，方括号只表示“查找与方括号中任何字符的匹配字符”。但是，如果第一个字符是插入记号 (^)，含义则相反，它表示“查找任何与后面的字符不匹配的字符”。因此，我们正在查找不是空格、CR、LF、"<" 或 ")" 的字符（还请注意，可以通过在字符前面加 "\"，避开对于规则表达式有特殊意义的字符）。结尾处的加号表示“查找最后字符串的一个或多个匹配”（星号表示“零个或多个”，问号表示“零个或一个”）。

这个规则表达式有许多内容有待理解，但如果多看几遍，您就会明白这就是 URL 的格式。

接着就是替换部分。这就更简单了。看上去类似 \\1 和 \\2 （或者 \\3 、 \\4 等，如果需要的话）的部分就是刚谈到的“反向引用”。\\1（或 \\2）表示模式与匹配表达式的第一个（或第二个）子表达式相匹配。替换部分的其余组成部分没有什么特别含义：只是一些容易识别为 HTML 代码的字符。有一件事比较麻烦，那就是匹配 \\2 -- 它看上去就是一个空格字符。也许有人会问：“有什么麻烦的？为什么不直接插入一个空格字符？”问得好，实际上我们不需要执行对 HTML 的操作。但从美学角度来看，最好让 HTML 输出尽可能保留转换成 HTML 标记之前的源文本文件外观。尤其是，让我们将换行符保留成换行符，空格就是空格（Tab 键就是 Tab 键）。

Python中实现从目录中过滤出指定文件类型的文件

最近学习下python,将从指定目录中过滤出指定文件类型的文件输出的方法总结一下,供日后查阅复制代码代码如下: #!/usr/bin/env python import glob import os os.chdir("./") for file in glob.glob("*.py"): print file print "#######Another One##########" for file in os.listdir("
Python学习小技巧之列表项的推导式与过滤操作

本文介绍的是关于Python中列表项的推导式与过滤操作的相关内容,分享出来供大家参考学习,下面来一起看看吧: 典型代码1: data_list = [1, 2, 3, 4, 0, -1, -2, 6, 8, -9] data_list_copy = [item for item in data_list] print(data_list) print(data_list_copy) 输出1: [1, 2, 3, 4, 0, -1, -2, 6, 8, -9] [1, 2, 3, 4, 0, -1
Python实现简单过滤文本段的方法

本文实例讲述了Python实现简单过滤文本段的方法.分享给大家供大家参考,具体如下: 一.问题: 如下文本: ## Alignment 0: score=397.0 e_value=8.2e-18 N=9 scaffold1&scaffold106 minus 0- 0: 10026549 10007782 2e-75 0- 1: 10026550 10007781 8e-150 0- 2: 10026552 10007780 1e-116 0- 3: 10026555 10007778 0 0
用Python实现协同过滤的教程

协同过滤在用户 -- 物品(user - item)的数据关系下很容易收集到一些偏好信息(preference),比如评分.利用这些分散的偏好信息,基于其背后可能存在的关联性,来为用户推荐物品的方法,便是协同过滤,或称协作型过滤(collaborative filtering). 这种过滤算法的有效性基础在于: 用户的偏好具有相似性,即用户是可分类的.这种分类的特征越明显,推荐的准确率就越高物品之间是存在关系的,即偏好某一物品的任何人,都很可能也同时偏好另一件物品不同环境下这两种
Python过滤列表用法实例分析

本文实例讲述了Python过滤列表用法.分享给大家供大家参考,具体如下: 过滤列表 [mapping-expression for element in source-list if filter-expression] 以 if 开头的是过滤器表达式,过滤器表达式可以是返回值为真或者假(在 Python 中是几乎任何东西)的任何表达式.任何经过滤器表达式演算值为元素的真都可以包含在映射中.其它的元素都将忽略,它们不会进入映射表达式,更不会包含在输出列表中. >>> li = [&qu
Python正则获取、过滤或者替换HTML标签的方法

本文实例介绍了Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法,具体内容如下 python正则表达式关键内容: python正则表达式转义符: . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 \W 匹配任意不是字母,数字,下划线,汉字的字符 \S 匹配任意不是空白符的字符 \D 匹配任意非数字的字符 \B 匹配不是单词开头或结束的位置 [^
Python 过滤字符串的技巧,map与itertools.imap

具体的实例我们需要在目录中遍历,包括子目录(哈哈),找出所有后缀为:rmvb ,avi ,pmp 的文件.(天哪?!你要干什么?这可是我的隐私啊--) 复制代码代码如下: import os def anyTrue(predicate, sequence): return True in map(predicate, sequence) def filterFiles(folder, exts): for fileName in os.listdir(folder): if os.path.
Python过滤函数filter()使用自定义函数过滤序列实例

filter函数: filter()函数可以对序列做过滤处理,就是说可以使用一个自定的函数过滤一个序列,把序列的每一项传到自定义的过滤函数里处理,并返回结果做过滤.最终一次性返回过滤后的结果. filter()函数有两个参数: 第一个,自定函数名,必须的第二个,需要过滤的列,也是必须的 DEMO 需求,过滤大于5小于10的数: 复制代码代码如下: # coding=utf8 # 定义大于5小于10的函数 def guolvhanshu(num): if num>5 and num<
Python实现过滤单个Android程序日志脚本分享

在Android软件开发中,增加日志的作用很重要,便于我们了解程序的执行情况和数据.Eclipse开发工具会提供了可视化的工具,但是还是感觉终端效率会高一些,于是自己写了一个python的脚本来通过包名来过滤某一程序的日志. 原理通过包名得到对应的进程ID(可能多个),然后使用adb logcat 过滤进程ID即可得到对应程序的日志. 源码复制代码代码如下: #!/usr/bin/env python #coding:utf-8 #This script is aimed to grep
python数组过滤实现方法

本文实例讲述了python数组过滤实现方法.分享给大家供大家参考.具体如下: 这段代码可以按照指定的条件过滤数组内的元素,返回过滤后的数组 li = ["a", "mpilgrim", "foo", "b", "c", "b", "d", "d"] print [elem for elem in li if len(elem) > 1] pr
python 数据清洗之数据合并、转换、过滤、排序

前面我们用pandas做了一些基本的操作,接下来进一步了解数据的操作, 数据清洗一直是数据分析中极为重要的一个环节. 数据合并在pandas中可以通过merge对数据进行合并操作. import numpy as np import pandas as pd data1 = pd.DataFrame({'level':['a','b','c','d'], 'numeber':[1,3,5,7]}) data2=pd.DataFrame({'level':['a','b','c','e'], '
Python数组条件过滤filter函数使用示例

使用filter函数,实现一个条件判断函数即可. 比如想过滤掉字符串数组中某个敏感词,示范代码如下: #filter out some unwanted tags def passed(item): try: return item != "techbrood" #can be more a complicated condition here except ValueError: return False org_words = [["this","is

在Python下使用Txt2Html实现网页过滤代理的教程

相关推荐

随机推荐