贪心匹配与非贪心匹配算法

贪心匹配与非贪心匹配

Python的正则表达式默认是贪心的,即在有二义的情况下,它会匹配最长的字符串;非贪心匹配算法则是尽可能匹配最短的字符串,也就是在花括号的后面加上一个问号。

hero = re.compile(r'Iron(wo){3,5}')
hero1 = re.compile(r'Iron(wo){3,5}?')
mo = hero1.search('My favorate hero is Ironwowowowowo')
mo1 = hero1.search('Ironwowowo')
print(mo.group())
print(mo1.group())

findall()方法

前面我们知道,search()方法返回的是一个match对象,包含被查找字符串中的”第一次“匹配的文本,但是findall()方法返回的是所有匹配。

phonenumber = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d\d')
mo = phonenumber.search('Cell:0371-123-4321')
mo1 = phonenumber.findall('Cell:0371-123-4321 Work:0371-123-5432')
print(mo.group())
print(mo1)

输出结果如下

[Running] python -u "e:\vscode_py\.vscode\hello.py"
0371-123-4321
['0371-123-4321', '0371-123-5432']

[Done] exited with code=0 in 0.122 seconds
  • 注:findall()方法返回的直接是匹配文本,并不是search()方法返回的match对象。

字符分类

常用字符分类
\d   0-9的任何数字
\D   除0-9的数字以外的任何字符
\w   任何字母、数字或下划线字符
\W   除字母、数字或下划线以外的任何字符
\s   空格、制表符或换行符
\S   除空格、制表符和换行符以外的任何字符

通配符

在正则表达式中,.(句号)成为通配符。它匹配除了换行符以外的所有字符。

atreg = re.compile(r'.at')
print(atreg.findall('the cat in the hat sat on the flat mat'))

输出结果

[Running] python -u "e:\vscode_py\.vscode\hello.py"
['cat', 'hat', 'sat', 'lat', 'mat']

[Done] exited with code=0 in 0.235 seconds

用点-星匹配字符

点-星(.*)匹配“任意文本”

name = re.compile(r'First name:(.*) Last name:(.*)')
nameres = name.search('First name: Yuan Last name: Mengchao')
print(nameres.group(1))
print(nameres.group(2))
print(nameres.group())

点-星通常进行“贪心”匹配,如要想进行“非贪心“匹配,则需要使用.*?

用sub()方法替换字符串

正则表达式不仅匹配的文本,还能用新的文本去替代这些模式文本。Regex对象的sub()方法需要

Donate comment here
------------- End Thank You For Your Reading -------------