Python正则表达式实用入门：从匹配到提取的全流程

正则表达式(Regular Expression)是程序员手中处理字符串的「瑞士军刀」——它能用一套精简的语法规则，精准匹配、分割、替换甚至提取复杂文本。在Python生态中，内置的re模块是我们使用正则的第一选择。

本文将跳过枯燥的理论堆砌，直接通过「语法速查→常用方法→实战场景→避坑指南」的路径，带你快速上手实用正则。

一、核心语法速查：3分钟记住高频规则

1.1 基础匹配符：单个字符的精确/通用匹配

符号	功能说明	对应字符集
直接字符	精确匹配自身（注意特殊字符需转义，如`.`要写`\.`）	普通字母、数字、标点
`\d`	匹配任意单个数字	`[0-9]`
`\w`	匹配任意单个字母、数字或下划线	`[a-zA-Z0-9_]`
`\s`	匹配任意单个空白字符（空格、制表符`\t`、换行`\n`等）	-
`.`	匹配任意单个非换行字符	-

1.2 数量限定符：控制前面字符的出现次数

默认采用贪婪模式（尽可能多匹配），加?可切换为非贪婪模式（见后续高级技巧）

符号	功能说明
`*`	0次或多次（允许不出现）
`+`	1次或多次（必须至少出现1次）
`?`	0次或1次（可选出现）
`{n}`	恰好n次
`{n,}`	至少n次
`{n,m}`	至少n次，最多m次

# 基础限定符示例
r'00\d'       # 匹配00开头的三位数（如007，不匹配00A）
r'\d{3}'      # 恰好3位数字（如010）
r'\w\w\d'     # 2个字母/数字/下划线+1个数字（如py3、123）
r'py.'        # py开头的3字符（非换行）（如pyc、pyo、py!）

1.3 字符集与范围：自定义单个字符的匹配范围

符号	功能说明
`[abc]`	匹配a、b、c中的任意一个
`[a-z]`	匹配任意单个小写字母
`[0-9a-zA-Z_]`	等价于`\w`
`[^abc]`	匹配除了a、b、c之外的任意单个字符

# 字符集示例
r'[0-9a-zA-Z_]+'    # 匹配由合法变量字符组成的字符串
r'[a-zA-Z_]\w*'     # 匹配Python合法变量名（必须字母/下划线开头）

1.4 边界与逻辑：控制匹配的位置和分支

符号	功能说明
`^`	匹配字符串的开头（多行模式下匹配行首）
`$`	匹配字符串的结尾（多行模式下匹配行尾）
`\b`	匹配单词边界（`\w`与非`\w`之间的位置）
`A\|B`	匹配A或者B
`(pattern)`	捕获分组（匹配后可单独提取该部分）
`(?:pattern)`	非捕获分组（仅用于分支/范围，不可单独提取）

# 边界与分组示例
r'^py$'                # 精确匹配'py'（不匹配pypy、python）
r'(P\|p)ython'         # 匹配Python或python
r'^(\d{3})-(\d{3,8})$' # 分组匹配010-12345这类电话

二、Python re模块：常用方法一步到位

2.1 必须记住的小细节：r前缀的使用

在Python中写正则表达式，务必在字符串前加r，否则会触发Python本身的转义规则，增加复杂度：

# ❌ 错误示例：要匹配"\d"需要写4个反斜杠
pattern_error = '\\\\d{3}'
# ✅ 正确示例：r前缀告诉Python忽略自身转义
pattern_correct = r'\d{3}'

2.2 高频方法：按场景选择

方法	功能	返回值
`re.match(p, s)`	从字符串开头尝试匹配	匹配成功返回`Match`对象，失败返回`None`
`re.search(p, s)`	搜索整个字符串找第一个匹配	同`match`
`re.findall(p, s)`	搜索整个字符串找所有匹配	无分组返回匹配列表，有分组返回分组元组列表
`re.split(p, s)`	按正则模式分割字符串	分割后的列表
`re.sub(p, repl, s)`	按正则模式替换匹配项	替换后的新字符串
`re.compile(p)`	预编译正则（适合重复使用）	`Pattern`对象（可调用上述所有方法）

分组提取实战

分组是正则最实用的功能之一，用Match对象的group()方法提取：

import re

# 预编译电话分组正则
phone_pattern = re.compile(r'^(\d{3})-(\d{3,8})$')
match_obj = phone_pattern.match('010-1234567')

if match_obj:
    print(match_obj.group(0))  # 整个匹配：'010-1234567'
    print(match_obj.group(1))  # 第一个分组：'010'
    print(match_obj.group(2))  # 第二个分组：'1234567'
    print(match_obj.groups())  # 所有分组元组：('010', '1234567')

三、进阶+实战：解决日常常见问题

3.1 非贪婪匹配：避免「吞掉」太多内容

默认贪婪模式下，*/+会尽可能匹配最长的字符串，加?即可切换非贪婪：

# 场景：提取带0结尾的数字串前面的非0部分
# ❌ 贪婪匹配：把所有0都吞到第一个分组里了
greedy_match = re.match(r'^(\d+)(0*)$', '102300').groups()
print(greedy_match)  # ('102300', '')

# ✅ 非贪婪匹配：第一个分组只匹配到最后一个非0字符
non_greedy_match = re.match(r'^(\d+?)(0*)$', '102300').groups()
print(non_greedy_match)  # ('1023', '00')

3.2 日常场景1：处理混乱的分割符

普通str.split()只能处理单一分隔符，无法处理连续分隔符或混合分隔符：

# 场景：分割用户输入的「姓名-年龄-地址」（可能有空格、分号、逗号混合）
messy_input = '张三,20;;  北京市朝阳区-李四;25 上海市徐汇区'

clean_result = re.split(r'[\s,;-]+', messy_input.strip())
print(clean_result)  # ['张三', '20', '北京市朝阳区', '李四', '25', '上海市徐汇区']

3.3 日常场景2：提取并格式化文本

# 场景：从日志中提取所有IP地址
log_text = '''
2024-05-20 10:00:01 192.168.1.1 请求成功
2024-05-20 10:00:05 10.0.0.5 请求超时
2024-05-20 10:00:10 172.16.0.3 请求成功
'''

# IP地址简化版正则（仅演示，生产可更严谨）
ip_pattern = r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}'
ips = re.findall(ip_pattern, log_text)
print(ips)  # ['192.168.1.1', '10.0.0.5', '172.16.0.3']

四、最佳实践与避坑指南

4.1 最佳实践

预编译高频正则：如果一个正则要使用10次以上，用re.compile()预编译可提升性能
用re.VERBOSE写可读正则：复杂正则可换行加注释
从简单到复杂构建：不要一开始就写完整的复杂正则，分模块测试
充分测试边界情况：比如空字符串、最大长度值、特殊字符混合

# 带注释的可维护性正则（验证简化版Email）
readable_email = re.compile(r"""
    ^                   # 字符串开始
    [a-zA-Z0-9._%+-]+   # 用户名
    @                   # @分隔符
    [a-zA-Z0-9.-]+      # 主域名
    \.                  # 点（必须转义）
    [a-zA-Z]{2,}        # 顶级域名（至少2个字符）
    $                   # 字符串结束
""", re.VERBOSE)

4.2 避坑指南

忘记转义特殊字符：比如.会匹配任意字符，要匹配真实的点必须写\.
混淆match和search：match只从开头匹配，search才会全局找第一个
过度依赖正则：简单字符串操作（比如判断是否包含某子串）用in即可，杀鸡不用牛刀

正则表达式是一个强大但容易「写爽读懵」的工具，本文覆盖了90%的日常使用场景。如果需要更高级的功能（比如Unicode字符匹配、递归正则），可以考虑Python第三方库regex。

#Python正则表达式实用入门：从匹配到提取的全流程

#一、核心语法速查：3分钟记住高频规则

#1.1 基础匹配符：单个字符的精确/通用匹配

#1.2 数量限定符：控制前面字符的出现次数

#1.3 字符集与范围：自定义单个字符的匹配范围

#1.4 边界与逻辑：控制匹配的位置和分支

#二、Python re模块：常用方法一步到位

#2.1 必须记住的小细节：r前缀的使用

#2.2 高频方法：按场景选择

#分组提取实战

#三、进阶+实战：解决日常常见问题

#3.1 非贪婪匹配：避免「吞掉」太多内容

#3.2 日常场景1：处理混乱的分割符

#3.3 日常场景2：提取并格式化文本

#四、最佳实践与避坑指南

#4.1 最佳实践

#4.2 避坑指南