利用正则表达式进行中文排版的实例教程

目录
  • 前言
  • 〇、常见匹配类
  • 一、段落排版类
    • 1、非段落换行排版(要求段落之间空一行)
    • 2、插入空行
    • 3、删除空行
    • 4、行首批量添加(替换项为2个空格时可实现首行缩进)
    • 5、行尾批量添加
    • 6、半角引号替换为全角引号
    • 7、半角单引号替换全角
    • 8、固定宽度加硬回车(下例为宽度50)
  • 二、删除特定字符串类
    • 1、删除行前空格
    • 2、删除行尾空格
    • 3、删除包含指定关键字的行
    • 4、删除以指定关键字开头的行
    • 5、删除HTML注释
    • 6、删除HTML标签
    • 7、删除HTML标签内的全部
  • 三、中文汉字处理类
    • 1、中文和英文之间加空格
    • 2、英文和中文之间加空格
    • 3、中文和数字之间加空格
    • 4、数字和中文之间加空格
    • 5、上述替换整合
    • 6、删除硬回车
  • 四、章节处理类
    • 1、序号变为章节
    • 2、章节之间加换行
    • 3、章节样式替换
  • 五、巧妙利用正则表达式排版
  • 总结

前言

中文排版是字处理的一个基本功能,目前有些文字排版软件,例如“排版助手”等等,可以完成一些通用的中文排版功能,但是对于一些复杂的个性化排版功能就无法实现,实际上,我们通过在一些常用的支持正则的代码编辑软件里,使用正则表达式,就可以完成很多复杂的排版功能,下面将举一些常用的例子。

代码编辑软件可使用Notepad++或Editplus,两者的正则表达式对于换行有一点点差别,一个用\r\n,另一个用\n。下面以Editplus为例,讲述一下操作方法,先用Editplus打开一个中文文件,然后点“替换”,点击“使用正则表达式”,然后在“查找项”和“替换项”里输入以下字符串,即可实现特定的排版功能。

此外,在“替换”界面中点“常用项”,可以把经常使用的规则保存为功能列表,这样,使用某个功能的时候,直接调用即可获取相关代码。

〇、常见匹配类

匹配中文字符的正则表达式:[\u4e00-\u9fa5]

匹配双字节字符(包括汉字在内):[^\x00-\xff]

匹配特殊字符 :((?=[\x21-\x7e]+)[^A-Za-z0-9])

匹配所有的半角空白字符:[ \f\r\t\n]

匹配隐藏字符:[\u0000-\u001F]

一、段落排版类

1、非段落换行排版(要求段落之间空一行)

查找项:([^\n])\n

替换项:\1

2、插入空行

查找项:\n

替换项:\n\n

3、删除空行

查找项:^\s*\n

替换项:空

4、行首批量添加(替换项为2个空格时可实现首行缩进)

查找项:^

替换项:我是行首aaa

5、行尾批量添加

查找项:\n

替换项:bbb我是行尾\n

6、半角引号替换为全角引号

查找项:\"([^\"\']*)\"

替换项:“\1”

7、半角单引号替换全角

查找项:\'([^\"\']*)\'

替换项:‘\1’

8、固定宽度加硬回车(下例为宽度50)

查找项:(.{1,50})

替换项:\1\n

二、删除特定字符串类

1、删除行前空格

查找项:^[ \s]*

替换项:空

2、删除行尾空格

查找项:[ \s]*$

替换项:空

3、删除包含指定关键字的行

查找项:^.*(指定关键字).*$

替换项:空

4、删除以指定关键字开头的行

查找项:^(指定关键字)[^\n]+\n

替换项:空

5、删除HTML注释

查找项:<!--(.*?)-->

替换项:空

6、删除HTML标签

查找项:<[^>]+>

替换项:空

7、删除HTML标签内的全部

查找项:<(.*)>.*<\/\1>|<(.*) \/>

替换项:空

三、中文汉字处理类

1、中文和英文之间加空格

查找项:([\u4e00-\u9fa5]+)([A-Za-z]+)

替换项:\1 \2

2、英文和中文之间加空格

查找项:([A-Za-z]+)([\u4e00-\u9fa5]+)

替换项:\1 \2

3、中文和数字之间加空格

查找项:([\u4e00-\u9fa5]+)([0-9]+)

替换项:\1 \2

4、数字和中文之间加空格

查找项:([0-9]+)([\u4e00-\u9fa5]+)

替换项:\1 \2

5、上述替换整合

查找项:([\u4e00-\u9fa5]+)([A-Za-z]+)|([A-Za-z]+)([\u4e00-\u9fa5]+)|([0-9]+)([\u4e00-\u9fa5]+)|([\u4e00-\u9fa5]+)([0-9]+)

6、删除硬回车

查找项:([0-9]+)([\u4e00-\u9fa5]+)

替换项:\1 \2

四、章节处理类

1、序号变为章节

查找项:\n([\u4e00-\u9fa5]{1,2})\n

替换项:\n第\1章\n

2、章节之间加换行

查找项:第(.*)章

替换项:\n第\1章

3、章节样式替换

查找项:<p>(第.{1,5}章.*)</p>

替换项:<h1>\1</h1>

五、巧妙利用正则表达式排版

中文和英文之间加空格

([\u4e00-\u9fa5]+)([A-Za-z]+)

然后使用

$1 $2

中文和数字之间加空格

([0-9]+)([\u4e00-\u9fa5]+)

然后使用

$1 $2

一下替换

([\u4e00-\u9fa5]+)([A-Za-z]+)|([A-Za-z]+)([\u4e00-\u9fa5]+)|([0-9]+)([\u4e00-\u9fa5]+)|([\u4e00-\u9fa5]+)([0-9]+)

总结

到此这篇关于利用正则表达式进行中文排版的文章就介绍到这了,更多相关正则表达式中文排版内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 用正则表达式来表示中文

    由于中文的ASCII码是有一定的范围的.所以可以用下面的正则表达式来表示中文. /^[chr(0xa1)-chr(0xff)]+$/ 下面是例子: $str = "正则表达式zhengzebiaodashi"; if  (preg_match("/^[".chr(0xa1)."-".chr(0xff)."]+$/", $str)) {     echo "这是一个纯中文字符串"; } else {     

  • 正则表达式中\w不能识别中文

    正则表达式用于字符串处理,表单验证等场合,实用高效,但用到时总是不太把握,以致往往要上网查一番.我将一些常用的表达式收藏在这里,作备忘之用.本贴随时会更新. 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 匹配双字节字符(包括汉字在内):[^\x00-\xff] 应用:计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) String.prototype.len=function(){return this.replace([^\x00-\xff]/g,"aa")

  • 中文正则表达式匹配问题之正则表达式中文匹配使用方法

    这篇文章主要讲如何使用正则匹配中文字符,中文正则表达式的匹配规则不像其他正则规则一样容易记住,下面一起看看这个中文正则表达式是怎么样的. \w匹配的仅仅是中文,数字,字母,对于国人来讲,仅匹配中文时常会用到,见下 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 或许你也需要匹配双字节字符,中文也是双字节的字符 匹配双字节字符(包括汉字在内):[^\x00-\xff] 注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 更多常用正则表达式匹配规则: 英文字母:[

  • 积累比较常用的正则表达式(例如:匹配中文、匹配html)

    正则表达式(Regular Expression,在代码中常简写为regex.regexp或RE)是计算机科学的一个概念.正则表达式使用单个字符串来描述.匹配一系列符合某个句法规则的字符串.在很多文本编辑器里,正则表达式通常被用来检索.替换那些符合某个模式的文本.许多程序设计语言都支持利用正则表达式进行字符串操作.在很多文本编辑器里,正则表达式通常被用来检索.替换那些符合某个模式的文本. 匹配中文字符的正则表达式: [u4e00-u9fa5]   评注:匹配中文还真是个头疼的事,有了这个表达式就

  • 正则表达式匹配中文与双字节的代码

    匹配中文字符 [\u4e00-\u9fa5] C# 复制代码 代码如下: class Class1 { static void Main() { string s = "中文 chinese"; Regex regx = new Regex("[\u4e00-\u9fa5]+"); Match m = regx.Match(s); Console.WriteLine(m.Groups[0].Value); // 中文 Console.ReadKey(); } } 匹

  • 利用正则表达式(只录入中文,数字,英文)

    只能输入中文:<input id="input1" type="text" onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')"> 只能输入全角字符:<input id="input2" type="text" onkeyup="value=value.replac(/[^\u4E00-\u9FA5]/g,'')"&

  • 匹配中文汉字的正则表达式介绍

    \w匹配的仅仅是中文,数字,字母,对于国人来讲,仅匹配中文时常会用到,见下 复制代码 代码如下: 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 或许你也需要匹配双字节字符,中文也是双字节的字符 复制代码 代码如下: 匹配双字节字符(包括汉字在内):[^\x00-\xff] 注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) PS:关于正则,本站还提供了2款非常简便实用的正则表达式工具供大家参考使用: JavaScript正则表达式在线测试工具: http:/

  • 通过正则表达式实现表单验证是否为中文

    JavaScript表单验证是否为中文,判断一个输入量是否为中文,通过正则表达式实现. 复制代码 代码如下: // 检查是否为中文 function isChn(str){ var reg = /^[u4E00-u9FA5]+$/; if(!reg.test(str)){ return false; } return true; }

  • 利用正则表达式进行中文排版的实例教程

    目录 前言 〇.常见匹配类 一.段落排版类 1.非段落换行排版(要求段落之间空一行) 2.插入空行 3.删除空行 4.行首批量添加(替换项为2个空格时可实现首行缩进) 5.行尾批量添加 6.半角引号替换为全角引号 7.半角单引号替换全角 8.固定宽度加硬回车(下例为宽度50) 二.删除特定字符串类 1.删除行前空格 2.删除行尾空格 3.删除包含指定关键字的行 4.删除以指定关键字开头的行 5.删除HTML注释 6.删除HTML标签 7.删除HTML标签内的全部 三.中文汉字处理类 1.中文和英

  • java利用正则表达式处理特殊字符的方法实例

    前言 一串字符串中有特殊符号,可能会影响到相关接口业务,所以需要把字符串中的特殊字符都过滤掉 百度上面搜索大部分处理方法是通过正则表达式, 他需要处理的特殊符号都写进正则表达式中去校验, 这种方式一眼看过去就非常别扭, 感觉不灵活, 万一需要过滤其他的又得临时加进去 解决方案 如下所示 public static String stringFilter (String str){ String regEx="[\\u00A0\\s\"`~!@#$%^&*()+=|{}':;',

  • Java利用for循环打印菱形的实例教程

    Java for循环打印菱形 Java代码输出菱形的方法和思路有很多,在此分享一个稍带模块化拆分思想的解决方案,将需要输出的菱形拆分成8个模块(如下图),每个模块独立实现输出. 优点:8个模块之间耦合性降低,灵活性增强.也就是说我们可以独立的控制这8个模块中任意一个模块的输出内容来灵活应对业务逻辑的变更. 按照上图标好的顺序依次实现这8个模块的代码,当1458模块输出为空格时,其中2367模块的组合,就是一个菱形. 思路分析: 1      ######*######  第一排 模块1[6个"#

  • 利用Angular2 + Ionic3开发IOS应用实例教程

    从 Angular1 到 Angular2 Angular2 作为著名前端 MVVM 架构 Angular1 的继承者,从一定程度上说,引领了新一代 Web 前端开发技术的革新.从最新版的 ember.js, react.js, vue.js 中,可以看到这几种技术相互借鉴,取长补短,最终向一种技术方向演进. 组件化技术的崛起 Angular1 也有组件,叫另外一个名字:指令.在 Angular1 中,指令是 DOM 元素紧密结合的一段包含控制逻辑.数据管理的代码.在指令中,我们可以清楚的看到

  • Python爬虫教程之利用正则表达式匹配网页内容

    前言 Python爬虫,除了使用大家广为使用的scrapy架构外,还有很多包能够实现一些简单的爬虫,如BeautifulSoup.Urllib.requests,在使用这些包时,有的网络因为比较复杂,比较难以找到自己想要的代码,在这个时候,如果能够使用正则表达式,将能很方便地爬取到自己想要的数据. 何为正则表达式 正则表达式是一种描述字符串排列的一种语法规则,通过该规则可以在一个大字符串中匹配出满足规则的子字符串.简单来说,就是给定了一个字符串,在字符串中找到想要的字符串,如一个电话号码,一个I

  • ios利用正则表达式判断手机号码格式是否正确的实例

    实例如下: //判断手机号码格式是否正确 + (BOOL)valiMobile:(NSString *)mobile { mobile = [mobile stringByReplacingOccurrencesOfString:@" " withString:@""]; if (mobile.length != 11) { return NO; }else{ /** * 移动号段正则表达式 */ NSString *CM_NUM = @"^((13[4-

  • 使用C#的正则表达式验证中文字符(实例代码)

    废话不多说了,直接给大家贴代码了,具体代码如下所示: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Text.RegularExpressions; using System.Threading.Tasks; namespace 正则表达01 { /// <summary> /// 表达是否是字符是不是中文 /// </summary&g

  • 利用正则表达式校验金额最多保留两位小数实例代码

    目录 正则表达式校验金额最多保留两位小数,那么必须满足如下条件: 部分正则表达式符号说明: 第一步,小数点之前表达式 第二步,小数点及小数位置 总结 先给出表达式结果:^(([1-9]{1}\d*)|(0{1}))(\.\d{1,2})?$ 有同学留言0识别错误,可用这个:(([1-9]{1}\d*)(.\d{1,2})?)|(0{1}.\d{1,2})思路:1.小数点前非0,则小数位置可有可无: 2.小数点前为0,那么小数位置必有修改于 2022-08-03 不熟悉正则表达式的同学,咋一看,一

  • Python正则表达式匹配中文用法示例

    本文实例讲述了Python正则表达式匹配中文用法.分享给大家供大家参考,具体如下: #!/usr/bin/python #-*- coding:cp936-*-#思路,将str转换成unicode,方可用正则表达式,前提是,要知道文件的编码,本例中是gbk import cPickle as mypickle import re import sys if (__name__=='__main__'): fid1=file('demo.txt','r');#demo.txt写入字符如:我们 p=

  • Spring MVC+FastJson+Swagger集成的完整实例教程

    基础部分 1. FastJson 简介 Fastjson是一个Java库,可用于将Java对象转换为JSON表示.它也可以被用来将一个JSON字符串转换成一个等效的Java对象.在转换速度上应该是最快的,几乎成为了项目的标配(在ajax请求和接口开发时一般都会用fastjson而不再使用jackson). GitHub: https://github.com/alibaba/fastjson (本地下载) 特性: 在服务器端和android客户端提供最佳性能 提供简单toJSONString()

随机推荐