python使用正则表达式匹配反斜杠\遇到的问题

目录
  • 遇到的问题:
  • 正则表达式
  • python字符串
  • 综上
  • 字符串方法replace()
  • 总结

遇到的问题:

在做爬虫的时候,爬取的url链接内还有转义字符,反斜杠 \,打算用正则的re.sub()替换掉的时候遇到了问题,这是要做替换的字符串

最开始直接写

re.sub("\\","",item)

编译器漏红了

然后就是找解决办法,最后发现要用四个反斜杠才可以,也就是使用

re.sub("\\\\","",item)

查了查资料,简单说说我自己的理解。

正则表达式

首先就是正则表达式,对于正则表达式来说,他的语法是独立的,有自己的语法,在正则表达式中,由于反斜杠 \ 是一个特殊字符,可以和其他字母形成转义字符,所以要想表示一个反斜杠 \ 就必须写成 \\ 这种形式。所以对于正则表达式来说,如果要匹配一个\ 就要写成\\,像这样:

python字符串

在python中,如果想要输出一个反斜杠\字符,同样要使用转义:

>>> print("\\")
\

同样是因为在python中反斜杠也是一个特殊字符。

综上

当写成

    item = "https:\/\/jobs.51job.com/guangzhou-thq\/137115906.html?s=sou_sou_soulb&t=0_0"
    item = re.sub("\\\\","",item)

首先传入的一个参数是一个字符串,所以python中的字符串解析器会把"\\\\"解析成
\\,解析之后会再传递给正则表达式的解析器。由于正则表达式也有自己的语法结构,所以当它看到\\时,会把它解析为一个\,所以这时候正则匹配就会只匹配一个\

贴一个Stackoverflow上的回答:

If you’re putting this in a string within a program, you may actually
need to use four backslashes (because the string parser will remove
two of them when “de-escaping” it for the string, and then the regex
needs two for an escaped regex backslash).
For instance:

regex("\\\\") is interpreted as…

regex("\\" [escaped backslash] followed by "\\" [escaped backslash])
is interpreted as…

regex(\\) is interpreted as a regex that matches a single backslash.

原文地址:Can’t escape the backslash with regex?

当然还可以使用 raw string来写,也就是写成

re.sub(r'\\','',item)

由于使用了r'\\',python的字符串解析器看到r'\\'之后,就直接将外层的r''去掉然后传递给re解析器,re解析器会再次解析\\\,匹配内容是一个反斜杠\

字符串方法replace()

除了使用正则替换之外,还可以使用字符串的replace()

str.replace(old, new[, max])
old – 将被替换的子字符串。
new – 新字符串,用于替换old子字符串。
max – 可选字符串, 替换不超过 max 次

>>> item
'https:\\/\\/jobs.51job.com/guangzhou-thq\\/137115906.html?s=sou_sou_soulb&t=0_0'
>>> item.replace('\\','')
'https://jobs.51job.com/guangzhou-thq/137115906.html?s=sou_sou_soulb&t=0_0'
>>>

需要注意的是不论是正则的re.sub()还是str.replace(),使用之后都不会对原始字符串改变:

import re

urL ='https:\/\/jobs.51job.com\/guangzhou-thq\/137735415.html?s=sou_sou_soulb&t=0_0'
print(urL.replace('\\',''))
print(urL)

print(re.sub(r'\\','',urL))
print(urL)

总结

到此这篇关于python使用正则表达式匹配反斜杠\遇到问题的文章就介绍到这了,更多相关python正则表达式匹配反斜杠\内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 正则表达式中两个反斜杠的匹配规则详解

    关于正则表达式raw的\匹配规则 这是我在学习中获得到的一个例子,第一表达式中匹配到的是none.于是乎我就在思考,为什么会匹配不到,假设\t被转义成一个\t,那么也应该匹配到\tsanle,而不是none. 为了验证这个问题,我做了如下的实验: 那为什么一个会出现这样的结果呢,在正则表达式中,需要查找的字符串,会进行两次转义,先是传入的字符串进行第一层转换,例如:\\t --> \t .然后传到re解析器里进行第二层转换,\t -->tab键.而需要匹配的字符串\\\t -->两个反斜

  • 解决Python正则表达式匹配反斜杠''\''问题

    在学习Python正则式的过程中,有一个问题一直困扰我,如何去匹配一个反斜杠(即"\")? 一.引入 在学习了Python特殊字符和原始字符串之后,我觉得答案应该是这样的: 1)普通字符串:'\\' 2)原始字符串:r'\' 但事实上在提取诸如"3\8"反斜杠之前的数字时,我屡次碰壁,始终得不到结果.最终发现自己理解错了,原来原始字符串和"正则转义"没有一点关系:下面详细谈一谈. 二.字符串转义 反斜杠,在Python中比较特殊,就是它可以用来构

  • python正则表达式 匹配反斜杠的操作方法

    python正则表达式 匹配反斜杠 正则 需要把原始字符串不被转义的条件下传递给正则模块,正则再去转义. r表示r后面的字符串为原始字符串,防止计算机将 \ 理解为转义字符. r'^\\$' 首先按照原始字符串给到compile函数 ,正则再把r'^\\$'中的\`翻译成\ backslash='\\' print(backslash) regular_backslash=re.compile(r'^\\$') print(regular_backslash.search(regular_bac

  • python使用正则表达式匹配反斜杠\遇到的问题

    目录 遇到的问题: 正则表达式 python字符串 综上 字符串方法replace() 总结 遇到的问题: 在做爬虫的时候,爬取的url链接内还有转义字符,反斜杠 \,打算用正则的re.sub()替换掉的时候遇到了问题,这是要做替换的字符串 最开始直接写 re.sub("\\","",item) 编译器漏红了 然后就是找解决办法,最后发现要用四个反斜杠才可以,也就是使用 re.sub("\\\\","",item) 查了查资料

  • PHP正则匹配反斜杠'\'和美元'$'的方法

    本文实例讲述了PHP正则匹配反斜杠'\'和美元'$'的方法.分享给大家供大家参考,具体如下: 1. test.php: <?php $content = '1111111<td>2222222<\/td>3$'; //'\\\\\/' 第1个'\'转义字符串的第2个'\',字符串为'\' //第3个'\'转义第4个'\',相当于字符串'\' //第5个'\'转义第4个'/',相当于字符串'/' //字符合起来为'\\/' 两个'\\' 正则表达式看做'\' $pattern

  • 关于Linux之grep查找文本时匹配反斜杠\转义问题

    在Linux系统中,当文本中有反斜杠 , 需要使用grep查找出带有反斜杠的内容 , 比如下面的文本 aaa bbb cccccc ddd\teee ffffff 想要查找出ddd\teee 这行的文本 如果你使用  cat xxx.txt  |grep "ddd\teee"    或者  cat xxx.txt  |grep "ddd\\teee 加一个转义,   是查不出来的 需要增加至少三个反斜杠才可以 , 比如这样 cat /tmp/test.txt|grep &qu

  • Python中的左斜杠、右斜杠(正斜杠和反斜杠)

    首先,"/"左倾斜是正斜杠,"\"右倾斜是反斜杠,可以记为:除号是正斜杠一般来说对于目录分隔符,Unix和Web用正斜杠/,Windows用反斜杠,但是现在Windows (一)目录中的斜杠们 python读文件需要输入的目录参数,列出以下例子: path = r"C:\Windows\temp\readme.txt" path1 = r"c:\windows\temp\readme.txt" path2 = "c:

  • 详解Python中的正斜杠与反斜杠

    首先,"/"左倾斜是正斜杠,"\"右倾斜是反斜杠,可以记为:除号是正斜杠一般来说对于目录分隔符,Unix和Web用正斜杠/,Windows用反斜杠,但是现在Windows (一)目录中的斜杠们 python读文件需要输入的目录参数,列出以下例子: path = r"C:\Windows\temp\readme.txt" path1 = r"c:\windows\temp\readme.txt" path2 = "c:

  • python中的正斜杠与反斜杠实例验证

    目录 一.历史渊源 二.实例验证 三.总结 扩展:Python 基础篇-正斜杠("/")和反斜杠("\")的用法 一.历史渊源 UNIX操作系统:设计了使用 ‘/’ 的路径分割法 DOS系统:借鉴了UNIX的目录结构,但由于在DOS系统中,斜杠 ‘/’ 已经用来作为命令行参数的标志,因此只能使用反斜杠 ‘\’ Windows系统:很多时候已经没有命令行参数的干扰,因此正斜杠与反斜杠大多数情况下可以互换 二.实例验证 桌面新建临时Excel文件——test.xlsx,

  • JS中正则表达式全局匹配正斜杠的方法

    目录 JS中正则表达式全局匹配正斜杠 正则表达式 修饰词: 换行符 补充:正则表达式如何匹配正反斜杠 反斜杠的麻烦 执行匹配 JS中正则表达式全局匹配正斜杠 正则表达式 语法: 必须写在两个反斜线之间 / 要匹配的规定/: 列如: var 变量名 = / 要匹配的规定/; 2.开头以 ^ 这个符号开头表示以什么开头 列如:/^1/ 表示以1开头 3.结尾以 $ 符号结束表示以什么结束 列如:/ 0$/ 以0结束 4.正则表达式后面跟字母的: 列如:/ /i; 不区分大小写 列如:/ / g 执行

  • python如何输出反斜杠

    python本身使用 \ 来转义一些特殊字符,比如在字符串中加入引号的时候 s = 'i\'m superman' print(s) # i'm superman 为了防止和字符串本身的引号冲突,使用 \ 来转义,一般情况下这个也不会引起什么问题,但是当你要使用 \ 来转义 \ 的时候,就比较混乱了,比如我们想要输出一个 \ ,得写两个 \ ,否则会报语法错误,因为 \ 把后面的引号给转义了,必须使用 \. # 错误写法 # print '\' # 正确写法 print('\\') # \ #

随机推荐