Python正则表达式中的量词符号与组问题小结

正则表达式中的符号

例子

  • | 是或的关系,只要存在就会被捕获
  • 匹配到的数据只按字符串顺序返回,而不是按照匹配规则返回
In [18]: data = 'insane@loafer.com'

In [19]: print(re.findall('insane|com|loafer', data))
['insane', 'loafer', 'com']

^ 等同于 \A

In [20]:  print(re.findall('^insane',data))
['insane']

In [21]:  print(re.findall('^insane1',data))
[]

$ 等同于 \Z

In [22]:  print(re.findall('com$',data))
['com']

In [23]:  print(re.findall('net$',data))
[]

* 匹配0次或多次

In [24]:  print(re.findall('\w*',data))
['insane', '', 'loafer', '', 'com', '']
  • + 匹配1次或多次
  • w+ 匹配1次或多次数字或字母
  • @.属于0次范围,不会被匹配出来
In [25]:  print(re.findall('\w+',data))
['insane', 'loafer', 'com']

{3} 表示对于匹配到的数据只获取3次

In [31]: data = 'insane@loaf.com'

In [32]:  print(re.findall('\w{3}',data))
['ins', 'ane', 'loa', 'com']

In [33]:  print(re.findall('[a-z]{3}',data))
['ins', 'ane', 'loa', 'com']

[a-zA-Z0-9] 基本上等同于 \w

{M, N} 表示对于匹配到的数据只获取M~N次

In [34]: data = 'insane@loaf.com'

In [35]:  print(re.findall('\w{1,4}',data))
['insa', 'ne', 'loaf', 'com']

反例:NM 中间不能有空格

In [36]:  print(re.findall('\w{1, 4}',data))
[]

[^...] 表示不匹配字符集中的字符

In [37]: data = 'insane@loaf.com'

In [38]:  print(re.findall('[^insane]',data))
['@', 'l', 'o', 'f', '.', 'c', 'o', 'm']

组的概念

组的应用

In [42]: test = 'hello my name is insane'

In [43]: result = re.search('hello (.*) name is (.*)', test)

In [44]: result.groups()
Out[44]: ('my', 'insane')

In [45]: result.groups(1)
Out[45]: ('my', 'insane')

In [46]: result.group(1)
Out[46]: 'my'

In [47]: result.group(2)
Out[47]: 'insane'
  • 贪婪与非贪婪 0次或多次属于贪婪模式
  • 通过?组合变成非贪婪模式 实战
#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Time     : 2021/8/28 22:13
# @Author   : InsaneLoafer
# @File     : re_test2.py

import re

def check_url(url):
    """
    判断url是否合法
    :param url:
    :return:
    """
    result = re.findall('[a-zA-Z]{4,5}://\w*\.*\w+\.\w+', url)
    if len(result) != 0:
        return True
    else:
        return False

def get_url(url):
    """
    通过组获取url中的某一部分
    :param url:
    :return:
    """
    result = re.findall('[https://|http://](\w*\.*\w+\.\w+)', url)
    if len(result) != 0:
        return result[0]
    else:
        return ''

def get_email(data):
    # result = re.findall('[0-9a-zA-Z_]+@[0-9a-zA-Z]+\.[a-zA-Z]+', data)
    result = re.findall('.+@.+\.[a-zA-Z]+', data)
    return result

html = ('<div class="s-top-nav" style="display:none;">'
        '</div><div class="s-center-box"></div>')

def get_html_data(data):
    """
    获取style中的display:
    使用非贪婪模式
    """
    result = re.findall('style="(.*?)"', data)
    return result

def get_all_data_html(data):
    """
    获取html中所有等号后双引号内的字符
    :param data:
    :return:
    """
    result = re.findall('="(.+?)"', data)
    return result

if __name__ == '__main__':
    result = check_url('https://www.baidu.com')
    print(result)

    result = get_url('https://www.baidu.com')
    print(result, 'https')

    result = get_url('http://www.baidu.com')
    print(result, 'http')

    result = get_email('insane@163.net')
    print(result)

    result = get_html_data(html)
    print(result)

    result = get_all_data_html(html)
    print(result)
True
www.baidu.com https
www.baidu.com http
['insane@163.net']
['display:none;']
['s-top-nav', 'display:none;', 's-center-box']

Process finished with exit code 0

到此这篇关于Python正则表达式中的量词符号与组的文章就介绍到这了,更多相关python正则表达式量词内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 详解python里使用正则表达式的分组命名方式

    详解python里使用正则表达式的分组命名方式 分组匹配的模式,可以通过groups()来全部访问匹配的元组,也可以通过group()函数来按分组方式来访问,但是这里只能通过数字索引来访问,如果某一天产品经理需要修改需求,让你在它们之中添加一个分组,这样一来,就会导致匹配的数组的索引的变化,作为开发人员的你,必须得一行一行代码地修改.因此聪明的开发人员又想到一个好方法,把这些分组进行命名,只需要对名称进行访问分组,不通过索引来访问了,就可以避免这个问题.那么怎么样来命名呢?可以采用(?P<nam

  • python使用正则表达式替换匹配成功的组并输出替换的次数

    正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式. re 模块使 Python 语言拥有全部的正则表达式功能. compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象.该对象拥有一系列方法用于正则表达式匹配和替换. re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数. 本章节主要介绍python使用正则表达式替换

  • python使用正则表达式替换匹配成功的组

    正则表达式简介 正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达式.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE),计算机科学的一个概念.正则表达式使用单个字符串来描述.匹配一系列符合某个句法规则的字符串.在很多文本编辑器里,正则表达式通常被用来检索.替换那些符合某个模式的文本. 许多程序设计语言都支持利用正则表达式进行字符串操作.例如,在Perl中就内建了一个功能强大的正则表达式引擎.正则表达式这个概念最初是由Unix中的工

  • Python正则表达式分组概念与用法详解

    本文实例讲述了Python正则表达式分组概念与用法.分享给大家供大家参考,具体如下: 正则表达式分组 分组就是用一对圆括号"()"括起来的正则表达式,匹配出的内容就表示一个分组.从正则表达式的左边开始看,看到的第一个左括号"("表示第一个分组,第二个表示第二个分组,依次类推,需要注意的是,有一个隐含的全局分组(就是0),就是整个正则表达式. 分完组以后,要想获得某个分组的内容,直接使用group(num)和groups()函数去直接提取就行. 例如:提取代码中的超链

  • python里使用正则表达式的组嵌套实例详解

    python里使用正则表达式的组嵌套实例详解 由于组本身是一个完整的正则表达式,所以可以将组嵌套在其他组中,以构建更复杂的表达式.下面的例子,就是进行组嵌套的例子: #python 3.6 #蔡军生 #http://blog.csdn.net/caimouse/article/details/51749579 # import re def test_patterns(text, patterns): """Given source text and a list of pa

  • Python re正则表达式元字符分组()用法分享

    分组小括号() 有直接分组和命名分组 直接分组: ()分组只显示小括号括起来的内容 re.findall(r"(name)+","namename") 这里匹配到了namename 但是值显示括号中的name 直接分组实例 re.search()方法: 搜索结果返回对象,可以用ret.group()方法打印结果 它跟findall不同在于找到一个结果就不再往下找了 re.match()方法: 只匹配字符串开始的位置 有名分组: 给分组取名?P<name>

  • 在python中使用正则表达式查找可嵌套字符串组

    在网上看到一个小需求,需要用正则表达式来处理.原需求如下: 找出文本中包含"因为--所以"的句子,并以两个词为中心对齐输出前后3个字,中间全输出,如果"因为"和"所以"中间还存在"因为""所以",也要找出来,另算一行,输出格式为: 行号 前面3个字 *因为* 全部 &所以& 后面3个字(标点符号算一个字) 2 还不是 *因为* 这里好, &所以& 没有人 实现方法如下: #e

  • Python正则表达式中的量词符号与组问题小结

    正则表达式中的符号 例子 | 是或的关系,只要存在就会被捕获 匹配到的数据只按字符串顺序返回,而不是按照匹配规则返回 In [18]: data = 'insane@loafer.com' In [19]: print(re.findall('insane|com|loafer', data)) ['insane', 'loafer', 'com'] ^ 等同于 \A In [20]: print(re.findall('^insane',data)) ['insane'] In [21]: p

  • Python正则表达式中flags参数的实例详解

    目录 flags参数 忽略大小写 多行模式 匹配任何字符 补充:正则表达式中的flags 总结 flags参数 re.I    IGNORECASE    忽略字母大小写 re.L    LOCALE    影响 “w, “W, “b, 和 “B,这取决于当前的本地化设置. re.M    MULTILINE    使用本标志后,‘^’和‘$’匹配行首和行尾时,会增加换行符之前和之后的位置. re.S    DOTALL    使 “.” 特殊字符完全匹配任何字符,包括换行:没有这个标志, “.

  • python正则表达式中匹配次数与贪心问题详解(+ ?*)

    python中正则表达式中的匹配次数问题网上有很多解释,最多的就是*匹配0或者无数次,+匹配1次或无数次,?匹配0次或者1次.可是虽然这个文字描述很简单,但是真正用起来的时候大家有没有发觉还是需要谨慎使用才能发挥出这个匹配次数的真正功能,下面举几个简单例子参考: 首先是一个很简单的匹配: 字符串如下 我们直接匹配python,结果只匹配到一个 接下来我们把匹配次数的符号加进去,首先是*,结果如下: 匹配到了三处,即匹配到了所有的前缀有python的字符串 换成+再次匹配 结果和*的匹配一致,那使

  • Python正则表达式中group与groups的用法详解

    目录 1 .group函数 1.1 返回整个匹配结果 1.2 返回指定分组的匹配结果 1.3 处理没有匹配结果的情况 2. groups函数 3. group和groups的使用场景 在Python中,正则表达式的group和groups方法是非常有用的函数,用于处理匹配结果的分组信息.group方法是re.MatchObject类中的一个函数,用于返回匹配对象的整个匹配结果或特定的分组匹配结果.而groups方法同样是re.MatchObject类中的函数,它返回的是所有分组匹配结果组成的元组

  • Python正则表达式中的re.S的作用详解

    Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式. re 模块使 Python 语言拥有全部的正则表达式功能. compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象.该对象拥有一系列方法用于正则表达式匹配和替换. re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数. 本章节给大家介绍P

  • python 字典中取值的两种方法小结

    如下所示: a={'name':'tony','sex':'male'} 获得name的值的方式有两种 print a['name'],type(a['name']) print a.get('name'),type(a.get('name')) 发现这两个结果完全一致,并没有任何的差异. 怎么选择这两个不同的字典取值方式呢? 如果字典已知,我们可以任选一个,而当我们不确定字典中是否存在某个键时,我之前的做法如下 if 'age' in a.keys(): print a['age'] 因为不先

  • php中正则表达式中的特殊符号

    字符/  意义:对于字符,通常表示按字面意义,指出接着的字符为特殊字符,不作解释.  例如:/b/匹配字符'b',通过在b 前面加一个反斜杠,也就是/b/,则该字符变成特殊字符,表示  匹配一个单词的分界线.  或者:  对于几个字符,通常说明是特殊的,指出紧接着的字符不是特殊的,而应该按字面解释.  例如:*是一个特殊字符,匹配任意个字符(包括0个字符):例如:/a*/意味匹配0个或多个a.为了匹配字面上的*,在a前面加一个反斜杠:例如:/a*/匹配'a*'. 字符^  意义:表示匹配的字符必

  • python正则表达式中的括号匹配问题

    问题: m = re.findall('[0-9]*4[0-9]*', '[4]') 可以匹配到4. m = re.findall('([0-9])*4([0-9])*', '[4]') 匹配不到4. 这是为什么呢?PS,这个是一个简化的说明,我要用的正则比这个复杂,所以要用到(),表示一个序列的匹配. 补充一点,我放在notepad++中用的时候,两种写法都能匹配出来,不知道为什么python中就不行了. 答案: python的正则中用()会进行匹配,所以返回结果是['',''],就是两个()

  • Python字符串和正则表达式中的反斜杠('\')问题详解

    在Python普通字符串中 在Python中,我们用'\'来转义某些普通字符,使其成为特殊字符,比如 In [1]: print('abc\ndef') # '\n'具有换行的作用 abc defg In [2]: print('abc\tdef') # '\t'具有制位符的作用 abc defg 我们还可以用'\'来转义特殊字符,使其成为普通字符,比如 In [3]: print('abc\\tdef') # 使'\'成为一个普通的字符,没有转义作用 abc\tdef In [4]: prin

  • 超详细讲解python正则表达式

    目录 正则表达式 1.1 正则表达式字符串 1.1.1 元字符 1.1.2 字符转义 1.1.3 开始与结束字符 1.2 字符类 1.2.1 定义字符类 1.2.2 字符串取反 1.2.3 区间 1.2.4 预定义字符类 1.3 量词 1.3.1 量词的使用 1.3.2 贪婪量词和懒惰量词 1.4 分组 1.4.1 分组的使用 1.4.2 分组命名 1.4.3 反向引用分组 1.4.4 非捕获分组 1.5 re模块 1.5.1 search()和match()函数 1.5.2 findall()

随机推荐