贪心匹配与非贪心匹配
Python的正则表达式默认是贪心的,即在有二义的情况下,它会匹配最长的字符串;非贪心匹配算法则是尽可能匹配最短的字符串,也就是在花括号的后面加上一个问号。
hero = re.compile(r'Iron(wo){3,5}')
hero1 = re.compile(r'Iron(wo){3,5}?')
mo = hero1.search('My favorate hero is Ironwowowowowo')
mo1 = hero1.search('Ironwowowo')
print(mo.group())
print(mo1.group())
findall()方法
前面我们知道,search()方法返回的是一个match对象,包含被查找字符串中的”第一次“匹配的文本,但是findall()方法返回的是所有匹配。
phonenumber = re.compile(r'\d\d\d\d-\d\d\d-\d\d\d\d')
mo = phonenumber.search('Cell:0371-123-4321')
mo1 = phonenumber.findall('Cell:0371-123-4321 Work:0371-123-5432')
print(mo.group())
print(mo1)
输出结果如下
[Running] python -u "e:\vscode_py\.vscode\hello.py"
0371-123-4321
['0371-123-4321', '0371-123-5432']
[Done] exited with code=0 in 0.122 seconds
- 注:findall()方法返回的直接是匹配文本,并不是search()方法返回的match对象。
字符分类
常用字符分类
\d 0-9的任何数字
\D 除0-9的数字以外的任何字符
\w 任何字母、数字或下划线字符
\W 除字母、数字或下划线以外的任何字符
\s 空格、制表符或换行符
\S 除空格、制表符和换行符以外的任何字符
通配符
在正则表达式中,.(句号)成为通配符。它匹配除了换行符以外的所有字符。
atreg = re.compile(r'.at')
print(atreg.findall('the cat in the hat sat on the flat mat'))
输出结果
[Running] python -u "e:\vscode_py\.vscode\hello.py"
['cat', 'hat', 'sat', 'lat', 'mat']
[Done] exited with code=0 in 0.235 seconds
用点-星匹配字符
点-星(.*)匹配“任意文本”
name = re.compile(r'First name:(.*) Last name:(.*)')
nameres = name.search('First name: Yuan Last name: Mengchao')
print(nameres.group(1))
print(nameres.group(2))
print(nameres.group())
点-星通常进行“贪心”匹配,如要想进行“非贪心“匹配,则需要使用.*?
。
用sub()方法替换字符串
正则表达式不仅匹配的文本,还能用新的文本去替代这些模式文本。
Regex
对象的sub()方法需要