解读python正则表达式括号问题

目录
  • python正则表达式括号
    • python中re库函数的简单用法
  • python正则表达式入门教程括号及字符
    • 括号区别
    • 常用正则表达式

python正则表达式括号

python中re库函数的简单用法

re.findall(pattern,string)
  • 匹配所有符合正则表达式的字符,返回一个列表
re.search(pattern,string)
  • 查找第一个符合正则表达式的字符,返回一个Matcher对象。用group()或groups()方法取值
re.match(pattern,string)
  • 查找第一个符合正则表达式的字符,要求完全符合,返回一个Matcher对象。用group()或groups()方法取值

正则表达式中的圆括号()的作用是对字符或元字符分组。

我错把它的作用认为是将圆括号内的字符看成一个整体。

尽管在一些正则测试网站上,进行匹配时,把括号内的字符看成一个整体来匹配也能匹配到想要的结果。测试网站如:regex101等

然而在在写python程序的时候,会出现不是我想要的结果。

如果正则表达式中多出使用了圆括号进行分组的话。

在使用findall方法匹配结果就会只有分组的结果(即括号内表达式匹配的内容),而不是整个表达式所匹配的内容。

如果使用search方法匹配,对返回的Matcher对象调用group()方法可以获取完整的结果。但是在需要匹配多个结果时,还得用findall

所以在使用正则表达式时,若像我不太熟悉的话,避免使用圆括号来把一段表达式看成一个整体。

python正则表达式入门教程括号及字符

数据分析遇到字符串处理会有两个阶段涉及到正则表达式,一个是在数据库阶段一个是Python处理阶段。作为一个小白学习正则也遇到很多弯路和难理解的点,梳理梳理学习的过程。

hive里面正则表达式可以用regexp_extract()在select里进行返回指定要求的内容,也可以用regexp在where里进行指定要求的限制条件;

python里面re.findall()或者df.str.extract()(pandas功能);

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。学习正则需要记住两类知识点加上实际案例的联系就能很快的理解和掌握。

正则中语法规范:

括号区别

正则表达式中存在(),[],{}

1、():匹配小括号内的字符串,可以是一个,也可以是多个,常跟“|”(或)符号搭配使用,是多选结构的。() 是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串

例:

string= ‘我正在学习python3的正则表达式,现在的日期是2019-01-22’
目的 给定指定字符串进内容进行精准匹配获取python
hive select regexp_extract(string,’(python)’,1) 返回结果为:python,1代码返回正则的第几个括号中的内容
python re.findall(’(python)’,string)返回结果为:python

2、【】:匹配字符组内的字符,比如咱们常用的[0-9a-zA-Z.*?!]等,在[]内的字符都是字符,不是元字符,比如“0-9”、“a-z”这中间的“-”就是连接符号,表示范围的元字符,如果写成[-!?*(]这样的话,就是普通字符例:

string= ‘我正在学习python3的正则表达式,现在的日期是2019-01-22’
目的 给定字符进内容匹配获取python
hive select regexp_extract(string,’[a-z]’,0) 返回结果为:python,0代码返回符合正则的内容,如果有小括号可以写1(如'([a-z]+)')
python re.findall(’[a-z]+’,string)返回结果为:python
目的 给定字符进内容匹配获取日期2019-01-22
hive select regexp_extract(string,’([0-9]+.[0-9]+.[0-9]+)’,1) 返回结果为:2019-01-22
python re.findall(’[0-9]+.[0-9]+.[0-9]+’,string)返回结果为:2019-01-22
需求增加 如果我要只需日期22这个部分
python re.findall(’[0-9]+.[0-9]+.([0-9]+)’,string)返回结果为:22,和上面的对比发现在最后一个[0-9]+外面加了一个小括号,有小括号就返回小括号里面的内容

3、{ }一般用来表示匹配的长度,比如 \s{3} 表示匹配三个空格,\s{1,3}表示匹配一到三个空格例:

string= ‘我正在学习python3的正则表达式,现在的日期是2019-01-22’
目的 取出日期数据部分结果为2019,01,22
python re.findall(’([0-9]{2,4})’,string) 返回结果为:[2019,01,22],python3中到3是一个数字,所以指定数据个数为2-4的就为日期部分的数字

常用正则表达式

匹配名 匹配表达式 例子
转义符 \ “n”匹配字符“n”。"\n"匹配一个换行符。串行"\\"匹配"\"而"\("则匹配"("
开始位置 ^ "abc,bac"匹配b开头的bac[^b]([a-z]{3})
结束位置 $ "abce,abcd"匹配d结尾字母[a-z]+d$
表达式0次或多次 *  
表达式1次或多次 +  
表达式0次或1次  
除\n任意字符 .  
单词边界 \b “er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”
非单词边界 \B “er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”
换页符 \f  
空白行 \n\s*\r  
首尾空白字符 ^\s* \s*$
中文字符 [\u4e00-\u9fa5]  
双字节字符(包含汉子在内) [^\x00-\xff]  
数字 [0-9]或\d  
非数字 \D  
小写字母 [a-z]  
大写字母 [A-Z]  
大小写字母 [a-zA-Z]  
英文加数字 a-z0-9  

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • Python正则表达式的另类解答

    目录 一.正则表达式的作用 二.正则表达式基本符号 三.Python自带正则表达式模块 总结 一.正则表达式的作用 提示:正则表达式是一段特殊的字符串,它表示的是一段有规律的信息.如果我们想从一段文字中提取想要的内容,就可以通过正则表达式来方便的帮助我们提取. 提示:以下是本篇文章正文内容,下面案例可供参考 二.正则表达式基本符号 1.点号“.” “.”表示的是匹配除了换行符以外的任何一个字符,包括但不限于英文字母.数字.汉字.英文标点符号和中文标点符号. 2.星号“” “”表示匹配它前面的一个

  • Python实现求解括号匹配问题的方法

    本文实例讲述了Python实现求解括号匹配问题的方法.分享给大家供大家参考,具体如下: 这个在本科学习数据结构的时候已经接触很多了,主流的思想是借助栈的压入.弹出来进行匹配,至于python的话可以使用列表来完成这个操作,因为列表的append方法相当于栈的push方法,列表的pop方法相当于栈的pop方法. 主要的思路: 首先设置两个列表分别存放的是各种括号的开括号和闭括号,然后遍历给定的字符串,分如下几种情况: 1.字符串首字符出现在闭括号列表中,直接结束,输出错误 2.字符串长度不为偶数,

  • Python正则表达式实现截取成对括号的方法

    本文实例讲述了Python正则表达式实现截取成对括号的方法.分享给大家供大家参考,具体如下: strs = '1(2(3(4(5(67)6)7)8)9)0' reg1 = re.compile('([()])∗') #一对括号 reg2 = re.compile('([()]|\([()]∗)*\)') #两对括号 reg3 = re.compile('([()]|\([()]∗|([()]|\([()]∗)*\))*\)') #三层 函数 #匹配成对括号正则表达式 def getReg(sel

  • python正则表达式中的括号匹配问题

    问题: m = re.findall('[0-9]*4[0-9]*', '[4]') 可以匹配到4. m = re.findall('([0-9])*4([0-9])*', '[4]') 匹配不到4. 这是为什么呢?PS,这个是一个简化的说明,我要用的正则比这个复杂,所以要用到(),表示一个序列的匹配. 补充一点,我放在notepad++中用的时候,两种写法都能匹配出来,不知道为什么python中就不行了. 答案: python的正则中用()会进行匹配,所以返回结果是['',''],就是两个()

  • 解读python正则表达式括号问题

    目录 python正则表达式括号 python中re库函数的简单用法 python正则表达式入门教程括号及字符 括号区别 常用正则表达式 python正则表达式括号 python中re库函数的简单用法 re.findall(pattern,string) 匹配所有符合正则表达式的字符,返回一个列表 re.search(pattern,string) 查找第一个符合正则表达式的字符,返回一个Matcher对象.用group()或groups()方法取值 re.match(pattern,strin

  • Python正则表达式常用函数总结

    本文实例总结了Python正则表达式常用函数.分享给大家供大家参考,具体如下: re.match() 函数原型: match(pattern, string, flags=0)     Try to apply the pattern at the start of the string,      returning a match object, or None if no match was found. 函数作用: re.match函数尝试从字符串的开头开始匹配一个模式,如果匹配成功,返

  • Python正则表达式知识汇总

    1. 正则表达式语法 1.1 字符与字符类   1 特殊字符:\.^$?+*{}[]()| 以上特殊字符要想使用字面值,必须使用\进行转义   2 字符类      1. 包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个.   2. 字符类内可以指定范围,比如[a-zA-Z0-9]表示a到z,A到Z,0到9之间的任何一个字符   3. 左方括号后跟随一个^,表示否定一个字符类,比如[^0-9]表示可以匹配一个任意非数字的字符.   4. 字符类内部,

  • Python正则表达式非贪婪、多行匹配功能示例

    本文实例讲述了Python正则表达式非贪婪.多行匹配功能.分享给大家供大家参考,具体如下: 一些regular的tips: 1 非贪婪flag >>> re.findall(r"a(\d+?)","a23b") # 非贪婪模式 ['2'] >>> re.findall(r"a(\d+)","a23b") ['23'] 注意比较这种情况: >>> re.findall(r&q

  • Python正则表达式教程之二:捕获篇

    前言 在上一篇文中,我们介绍了关于Python正则表达式的基础,那么在这一篇文章里,我们将总结一下正则表达式关于捕获的用法.下面话不多说,来看看详细的介绍吧. 捕获 捕获和分组在正则表达式中有着密切的联系,一般情况下,分组即捕获,都用小括号完成(因此,小括号在正则表达式中也属于特殊字符,表达原含义时需要转义): (-)     正常分组,并捕获 (?:-)   分组,但是不捕获 举个例子,假设我们需要匹配一个座机号码: >>> m = re.search(r'^(\d{3,4}-)?(\

  • Python正则表达式完全指南

    正则表达式处理文本有如疾风扫秋叶,绝大部分编程语言都内置支持正则表达式,它应用在诸如表单验证.文本提取.替换等场景.爬虫系统更是离不开正则表达式,用好正则表达式往往能收到事半功倍的效果. 介绍正则表达式前,先来看一个问题,下面这段文本来自豆瓣的某个网页链接,我对内容进行了缩减.问:如何提取文本中所有邮箱地址呢? html = """ <style> .qrcode-app{ display: block; background: url(/pics/qrcode_

  • Python正则表达式分组概念与用法详解

    本文实例讲述了Python正则表达式分组概念与用法.分享给大家供大家参考,具体如下: 正则表达式分组 分组就是用一对圆括号"()"括起来的正则表达式,匹配出的内容就表示一个分组.从正则表达式的左边开始看,看到的第一个左括号"("表示第一个分组,第二个表示第二个分组,依次类推,需要注意的是,有一个隐含的全局分组(就是0),就是整个正则表达式. 分完组以后,要想获得某个分组的内容,直接使用group(num)和groups()函数去直接提取就行. 例如:提取代码中的超链

  • python正则表达式的使用

    python的正则是通过re模块的支持 匹配的3个函数 match :只从字符串的开始与正则表达式匹配,匹配成功返回matchobject,否则返回none: re.match(pattern, string, flags=0) ##flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等. search :将字符串的所有字串尝试与正则表达式匹配,如果所有的字串都没有匹配成功,返回none,否则返回matchobject:(re.search相当于perl中的默认行为)

  • Python正则表达式经典入门教程

    本文实例总结了Python正则表达式基本用法.分享给大家供大家参考,具体如下: 正则表达式在平时做文本处理(爬虫程序去解析html中的字段,在分析log文件的时候需要抓取一些关键数据)的时候经常会用到.一般我们会使用到Python的re库.如果正则表达式自己代码中反复被用到的时候,我们可以将这个正则表达式使用re.compile函数转换成一个object方便调用. match 将输入的字符串从第一个字符开始匹配,如果不匹配将会直接返回空. search 和match不同,search能自由的在字

随机推荐