前言

正则表达式是对字符串的一种逻辑公式,用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则的字符串”,此字符串用来表示对字符串的一种“过滤”逻辑。正在在很多开发语言中都存在,而非python独有。对其知识点进行总结后,会写一个demo。

有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】,感兴趣者可以关注小编后私信学习资料(是关注后私信哦)反正闲着也是闲着呢,不如学点东西啦

< /字符转义_html转义字符_html特殊字符的字符转义序列

1.正则表达式

python是自1.5开始引进re模块进行处理正则的。我先把正则的匹配规则总结一下,再总结re模块相应的方法。

1.1匹配规则

html转义字符_< /字符转义_html特殊字符的字符转义序列

对于一个特殊字符在正则表达式中是不能正常识别的,如果接触过其他语言我们就这到有一个叫做转移字符的东西的存在,在特殊字符前加用反斜杠接口。比如n换行\为反斜杠,在这不再累述。下面来介绍一下re这个模块。

1.2.re模块

此模块主要方法如下

re.match()#尝试从字符串的起始位置匹配一个模式(pattern),如果不是起始位置匹配成功的话,match()就返回None
re.search()#函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None。
re.findall()#遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。
re.compile()#编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率。)
re.sub()#使用re替换string中每一个匹配的子串后返回替换后的字符串。
re.subn()#返回替换次数
re.split()#按照能够匹配的子串将string分割后返回列表。

1.2.1.re.match()

方法: re.match(pattern, string, flags=0) # pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符

先看一个最简单的用法

import re
content ='Hello 123 4567 wangyanling REDome'
print(len(content))
result = re.match('^Hellosdddsd{4}sw{10}.*Dome
, content) print(result) print(result.group()) print(result.span())

结果:

匹配规则就不在累述,以上需要注意的是

(1) .group() 表示的是返回正则匹配的结果

(2) .span() 表示返回正则匹配的范围

使用:

以上我们已经知道re.matcha()的具体方法,那么接下我来看一下具体使用,对此我们要理解以下几种匹配的感念。

1.泛匹配(.*):匹配所有字符

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hello.*Dome
, content) print(result) print(result.group()) print(result.span())

它的结果是和上面的输出结果完全一样的。

2.目标匹配(()):将需要的字符匹配出来

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^Hellosdd(d)sd{4}sw{10}.*Dome
, content) print(result) print(result.group(1)) import re content ='Hello 123 4567 wangyanling REDome' result = re.match('^Hellos(d+)sd{4}sw{10}.*Dome
, content) print(result) print(result.group(1))

结果

以上可以看出:

(1) () 匹配括号内的表达式,也表示一个组

(2) + 匹配1个或多个的表达式

*匹配0个或多个的表达式

(3) .group(1) —输出第一个带有()的目标

3.贪婪匹配(.*()):匹配尽可能少的的结果

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^H.*(d+).*Dome
, content) print(result) print(result.group(1))

结果

4.贪婪匹配(.*?()):匹配尽可能多的结果

import re
content ='Hello 123 4567 wangyanling REDome'
result = re.match('^H.*?(d+).*?Dome
, content) print(result) print(result.group(1))

结果

以上3,4两个匹配方式请尽量采用非贪婪匹配

5.其他

换行:

import re
content ='''Hello 123 4567 
 wangyanling REDome'''
result = re.match('^H.*?(d+).*?Dome
, content,re.S)#re.S print(result.group(1)) result = re.match('^H.*?(d+).*?Dome