正则表达式简介及在C++11中的简单使用教程

2025-02-22 16:54:50

正则表达式Regex(regular expression)是一种强大的描述字符序列的工具。在许多语言中都存在着正则表达式，C++11中也将正则表达式纳入了新标准的一部分，不仅如此，它还支持了6种不同的正则表达式的语法，分别是：ECMASCRIPT、basic、extended、awk、grep和egrep。其中ECMASCRIPT是默认的语法，具体使用哪种语法我们可以在构造正则表达式的时候指定。

正则表达式是一种文本模式。正则表达式是强大、便捷、高效的文本处理工具。正则表达式本身，加上如同一门袖珍编程语言的通用模式表示法(general pattern notation)，赋予使用者描述和分析文本的能力。配合上特定工具提供的额外支持，正则表达式能够添加、删除、分离、叠加、插入和修整各种类型的文本和数据。

完整的正则表达式由两种字符构成：特殊字符(special characters)称为”元字符”(meta characters)，其它为”文字”(literal)，或者是普通文本字符(normal text characters，如字母、数字、汉字、下划线)。正则表达式的元字符提供了更强大的描述能力。

和文本编辑器一样，绝大多数高级编程语言均支持正则表达式，如Perl、Java、Python、C/C++，这些语言都有各自的正则表达式包。

一个正则表达式仅仅为一个字符串，它没有长度限制。“子表达式”指的是整个正则表达式中的一部分，通常是括号内的表达式，或者是由”|”分割的多选分支。

默认情况下，表达式中的字母是要区分大小写的。

常用的元字符：

1. “.”：匹配除"\n"之外的任何单个字符，若要匹配包括"\n"在内的任意字符，需使用诸如"[\s\S]"之类的模式；

2. “^”：匹配输入字符串的开始位置，不匹配任何字符，要匹配”^”字符本身，需使用”\^”；

3. “$”：匹配输入字符串结尾的位置，不匹配任何字符，要匹配”$”字符本身，需使用”\$”；

4. “*”：零次或多次匹配前面的字符或子表达式，”*”等效于”{0,}”，如”\^*b”可以匹配”b”、”^b”、”^^b”、…；

5. “+”：一次或多次匹配前面的字符或子表达式，等效于”{1,}”，如”a+b”可以匹配”ab”、”aab”、”aaab”、…；

6. “?”：零次或一次匹配前面的字符或子表达式，等效于”{0,1}”，如”a[cd]?”可以匹配”a”、”ac”、”ad”；当此字符紧随任何其他限定符”*”、”+”、”?”、”{n}”、”{n,}”、”{n,m}”之后时，匹配模式是"非贪心的"。"非贪心的"模式匹配搜索到的、尽可能短的字符串，而默认的"贪心的"模式匹配搜索到的、尽可能长的字符串。如，在字符串"oooo"中，"o+?"只匹配单个"o"，而"o+"匹配所有"o"；

7. “|”：将两个匹配条件进行逻辑"或"(Or)运算,如正则表达式”(him|her)”匹配"itbelongs to him"和"it belongs to her"，但是不能匹配"itbelongs to them."；

8. “\”：将下一字符标记为特殊字符、文本、反向引用或八进制转义符，如，”n”匹配字符”n”,”\n”匹配换行符，序列”\\”匹配”\”,”\(“匹配”(“；

9. “\w”：匹配字母或数字或下划线，任意一个字母或数字或下划线，即A~Z，a~z,0~9,_中任意一个；

10. “\W”：匹配任意不是字母、数字、下划线的字符；

11. “\s”：匹配任意的空白符，包括空格、制表符、换页符等空白字符的其中任意一个，与”[ \f\n\r\t\v]”等效；

12. “\S”：匹配任意不是空白符的字符，与”[^\f\n\r\t\v]”等效；

13. “\d”：匹配数字，任意一个数字，0~9中的任意一个，等效于”[0-9]”；

14. “\D”：匹配任意非数字的字符，等效于”[^0-9]”；

15. “\b”：匹配一个字边界，即字与空格间的位置，也就是单词和空格之间的位置，不匹配任何字符，如，"er\b"匹配"never"中的"er"，但不匹配"verb"中的"er";

16. “\B”：非字边界匹配,"er\B"匹配"verb"中的"er"，但不匹配"never"中的"er"；

17. “\f”：匹配一个换页符，等价于”\x0c”和”\cL”；

18. “\n”：匹配一个换行符，等价于”\x0a”和”\cJ”；

19. “\r”：匹配一个回车符，等价于”\x0d”和”\cM”；

20. “\t”：匹配一个制表符，等价于”\x09”和”\cI”；

21. “\v”：匹配一个垂直制表符，等价于”\x0b”和”\cK”；

22. “\cx”：匹配”x”指示的控制字符,如，\cM匹配Control-M或回车符，”x”的值必须在”A-Z”或”a-z”之间,如果不是这样，则假定c就是"c"字符本身；

23. “{n}”：”n”是非负整数，正好匹配n次，如，"o{2}"与"Bob"中的"o"不匹配，但与"food"中的两个"o"匹配；

24. “{n,}”：”n”是非负整数,至少匹配n次,如，"o{2,}"不匹配"Bob"中的"o"，而匹配"foooood"中的所有”o”，"o{1,}"等效于"o+"，"o{0,}"等效于"o*"；

25. “{n,m}”：”n”和”m”是非负整数，其中n<=m，匹配至少n次，至多m次，如，"o{1,3}"匹配"fooooood"中的头三个o，'o{0,1}'等效于'o?'，注意,不能将空格插入逗号和数字之间；如”ba{1,3}”可以匹配”ba”或”baa”或”baaa”；

26. “x|y”：匹配”x”或”y”，如，”z|food”匹配"z"或"food"；”(z|f)ood”匹配"zood"或"food"；

27. “[xyz]”：字符集，匹配包含的任一字符，如，"[abc]"匹配"plain"中的"a";

28. “[^xyz]”：反向字符集，匹配未包含的任何字符，匹配除了”xyz”以外的任意字符，如，"[^abc]"匹配"plain"中的"p"；

29. “[a-z]”：字符范围，匹配指定范围内的任何字符，如，"[a-z]"匹配"a"到"z"范围内的任何小写字母；

30. “[^a-z]”：反向范围字符，匹配不在指定的范围内的任何字符，如，"[^a-z]"匹配任何不在"a"到"z"范围内的任何字符；

31. “( )”：将”(“和”)”之间的表达式定义为”组”group，并且将匹配这个表达式的字符保存到一个临时区域,一个正则表达式中最多可以保存9个，它们可以用”\1”到”\9”的符号来引用；

32. “(pattern)”：匹配pattern并捕获该匹配的子表达式，可以使用$0…$9属性从结果”匹配”集合中检索捕获的匹配；

33. “(?:pattern)”：匹配pattern但不捕获该匹配的子表达式，即它是一个非捕获匹配，不存储供以后使用的匹配，这对于用”or”字符” (|)”组合模式部件的情况很有用, 如，”industr(?:y|ies)”是比”industry|industries”更简略的表达式；

34. “(?=pattern)”：非获取匹配，正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串，该匹配不需要获取供以后使用。如，"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows"，但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始；

35. “(?!pattern)”：非获取匹配，正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串，该匹配不需要获取供以后使用。如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows"，但不能匹配"Windows2000"中的"Windows"；

要匹配某些特殊字符，需在此特殊字符前面加上”\”，如要匹配字符”^”、”$”、”()”、”[]”、”{}”、”.”、”?”、”+”、”*”、”|”，需使用” \^”、” \$”、” \ (“、”\)”、” \ [“、”\]”、” \{“、”\}”、” \.”、” \?”、” \+”、” \*”、” \|”。

在C++/C++11中，GCC版本是4.9.0及以上，VS版本为VS2013及以上时，会有regex头文件，此头文件中会有regex_match、regex_search、regex_replace等函数可供调用，以下是测试代码：

#include "regex.hpp"
#include <regex>
#include <string>
#include <vector>
#include <iostream>
int test_regex_match()
{
 std::string pattern{ "\\d{3}-\\d{8}|\\d{4}-\\d{7}" }; // fixed telephone
 std::regex re(pattern);
 std::vector<std::string> str{ "010-12345678", "0319-9876543", "021-123456789"};
 /* std::regex_match:
  判断一个正则表达式(参数re)是否匹配整个字符序列str,它主要用于验证文本
  注意，这个正则表达式必须匹配被分析串的全部，否则返回false;如果整个序列被成功匹配，返回true
 */
 for (auto tmp : str) {
  bool ret = std::regex_match(tmp, re);
  if (ret) fprintf(stderr, "%s, can match\n", tmp.c_str());
  else fprintf(stderr, "%s, can not match\n", tmp.c_str());
 }
 return 0;
}
int test_regex_search()
{
 std::string pattern{ "http|hppts://\\w*$" }; // url
 std::regex re(pattern);
 std::vector<std::string> str{ "http://blog.csdn.net/fengbingchun", "https://github.com/fengbingchun",
  "abcd://124.456", "abcd https://github.com/fengbingchun 123" };
 /* std::regex_search:
  类似于regex_match,但它不要求整个字符序列完全匹配
  可以用regex_search来查找输入中的一个子序列，该子序列匹配正则表达式re
 */
 for (auto tmp : str) {
  bool ret = std::regex_search(tmp, re);
  if (ret) fprintf(stderr, "%s, can search\n", tmp.c_str());
  else fprintf(stderr, "%s, can not search\n", tmp.c_str());
 }
 return 0;
}
int test_regex_search2()
{
 std::string pattern{ "[a-zA-z]+://[^\\s]*" }; // url
 std::regex re(pattern);
 std::string str{ "my csdn blog addr is: http://blog.csdn.net/fengbingchun , my github addr is: https://github.com/fengbingchun " };
 std::smatch results;
 while (std::regex_search(str, results, re)) {
  for (auto x : results)
   std::cout << x << " ";
  std::cout << std::endl;
  str = results.suffix().str();
 }
 return 0;
}
int test_regex_replace()
{
 std::string pattern{ "\\d{18}|\\d{17}X" }; // id card
 std::regex re(pattern);
 std::vector<std::string> str{ "123456789012345678", "abcd123456789012345678efgh",
  "abcdefbg", "12345678901234567X" };
 std::string fmt{ "********" };
 /* std::regex_replace:
  在整个字符序列中查找正则表达式re的所有匹配
  这个算法每次成功匹配后，就根据参数fmt对匹配字符串进行替换
 */
 for (auto tmp : str) {
  std::string ret = std::regex_replace(tmp, re, fmt);
  fprintf(stderr, "src: %s, dst: %s\n", tmp.c_str(), ret.c_str());
 }
 return 0;
}
int test_regex_replace2()
{
 // reference: http://www.cplusplus.com/reference/regex/regex_replace/
 std::string s("there is a subsequence in the string\n");
 std::regex e("\\b(sub)([^ ]*)"); // matches words beginning by "sub"
 // using string/c-string (3) version:
 std::cout << std::regex_replace(s, e, "sub-$2");
 // using range/c-string (6) version:
 std::string result;
 std::regex_replace(std::back_inserter(result), s.begin(), s.end(), e, "$2");
 std::cout << result;
 // with flags:
 std::cout << std::regex_replace(s, e, "$1 and $2", std::regex_constants::format_no_copy);
 std::cout << std::endl;
 return 0;
}

GitHub：https://github.com/fengbingchun/Messy_Test

以上所述是小编给大家介绍的正则表达式简介及在C++11中的简单使用教程，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们网站的支持！

C语言正则表达式操作示例

本文实例讲述了C语言正则表达式操作.分享给大家供大家参考,具体如下: #include <stdio.h> #include <sys/types.h> #include <regex.h> int main(int argc,char**argv) { int status; int i; int cflags = REG_EXTENDED; regmatch_t pmatch[1]; const size_t nmatch =1 ; regex_t reg; con
常见的数字验证正则表达式整理

验证数字的正则表达式集验证数字:^[0-9]*$ 验证n位的数字:^\d{n}$ 验证至少n位数字:^\d{n,}$ 验证m-n位的数字:^\d{m,n}$ 验证零和非零开头的数字:^(0|[1-9][0-9]*)$ 验证有两位小数的正实数:^[0-9]+(.[0-9]{2})?$ 验证有1-3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$ 验证非零的正整数:^\+?[1-9][0-9]*$ 验证非零的负整数:^\-[1-9][0-9]*$ 验证非负整数(正整数 + 0) ^\d
最全的常用正则表达式大全——包括校验数字、字符、一些特殊的需求等

一.校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^\d{n}$ 3 至少n位的数字:^\d{n,}$ 4 m-n位的数字:^\d{m,n}$ 5 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 7 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$ 8 正数.负数.和小数:^(\-|\+)?\d+(\.\d+)?$ 9 有两位小数的正实数:^[0-9]
匹配yyyy-mm-dd日期格式的的正则表达式

其实我也很头疼正则表达式,百度了一些资料,总结一下,这里留个备份吧. 要考虑的问题:合法的日期是多少:每个月的天数不一样:闰年的问题.... 1.合法的日期:MSDN上规定--在公元(基督纪元)0001 年 1 月 1 日午夜 12:00:00 到公元 (C.E.) 9999 年 12 月 31 日晚上 11:59:59 之间的日期和时间查看http://msdn.microsoft.com/zh-cn/library/system.datetime(VS.80).aspx 2.闰年的概念:百
正则表达式匹配不包含某些字符串的技巧

经常我们会遇到想找出不包含某个字符串的文本,程序员最容易想到的是在正则表达式里使用,^(hede)来过滤"hede"字串,但这种写法是错误的.我们可以这样写:[^hede],但这样的正则表达式完全是另外一个意思,它的意思是字符串里不能包含'h','e','d'三个但字符.那什么样的正则表达式能过滤出不包含完整"hello"字串的信息呢? 事实上,说正则表达式里不支持逆向匹配并不是百分之百的正确.就像这个问题,我们就可以使用否定式查找来模拟出逆向匹配,从而解决我们的问
正则表达式学习资料整理

常用正则表达式整理篇http://www.jb51.net/article/17355.htm 正则表达式高级学习技巧http://www.jb51.net/article/9229.htm 1.正则表达式简介正则表达式(Regular expression,简写为Regexes)是一种用来操作和检验字符串数据的强大工具.它相当与一串特殊的字符,用它可以转换成算法,对文本进行匹配等操作. 事实上正则表达式有其自身的一套语法,这种语法对于初学者来说显得有些晦涩难懂.尤其是其构造比较困难,称为很
正则表达式基本语法详解

正则表达式是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符").模式描述在搜索文本时要匹配的一个或多个字符串. 1.正则表达式基本语法两个特殊的符号'^'和'$'.他们的作用是分别指出一个字符串的开始和结束.例子如下: "^The":表示所有以"The"开始的字符串("There","The cat"等): "of despair$":表示所以以&q
精通JS正则表达式(推荐)

正则表达式可以: •测试字符串的某个模式.例如,可以对一个输入字符串进行测试,看在该字符串是否存在一个电话号码模式或一个信用卡号码模式.这称为数据有效性验证 •替换文本.可以在文档中使用一个正则表达式来标识特定文字,然后可以全部将其删除,或者替换为别的文字 •根据模式匹配从字符串中提取一个子字符串.可以用来在文本或输入字段中查找特定文字正则表达式语法一个正则表达式就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式.该模式描述在查找文字主体时待匹配的一个或多个字符串
匹配中文汉字的正则表达式介绍

\w匹配的仅仅是中文,数字,字母,对于国人来讲,仅匹配中文时常会用到,见下复制代码代码如下: 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 或许你也需要匹配双字节字符,中文也是双字节的字符复制代码代码如下: 匹配双字节字符(包括汉字在内):[^\x00-\xff] 注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) PS:关于正则,本站还提供了2款非常简便实用的正则表达式工具供大家参考使用: JavaScript正则表达式在线测试工具: http:/
正则表达式(括号)、[中括号]、{大括号}的区别小结

正则表达式的() [] {}有不同的意思. () 是为了提取匹配的字符串.表达式中有几个()就有几个相应的匹配字符串. (\s*)表示连续空格的字符串. []是定义匹配的字符范围.比如 [a-zA-Z0-9] 表示相应位置的字符要匹配英文字符和数字.[\s*]表示空格或者*号. {}一般用来表示匹配的长度,比如 \s{3} 表示匹配三个空格,\s[1,3]表示匹配一到三个空格. (0-9) 匹配 '0-9′ 本身. [0-9]* 匹配数字(注意后面有 *,可以为空)[0-9]+ 匹配数字(注意后

正则表达式简介及在C++11中的简单使用教程

相关推荐

随机推荐