• 初识 Python 正则表达式

    初识 Python 正则表达式

    正则表达式是一个特殊的字符序列,用于判断一个字符串是否与我们所设定的字符序列是否匹配,也就是说检查一个字符串是否与某种模式匹配。

    Python 自 1.5 版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。

    下面通过实例,一步一步来初步认识正则表达式。

    比如在一段字符串中寻找是否含有某个字符或某些字符,通常我们使用内置函数来实现,如下:

    1. # 设定一个常量
    2. a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
    3. # 判断是否有 “两点水” 这个字符串,使用 PY 自带函数
    4. print('是否含有“两点水”这个字符串:{0}'.format(a.index('两点水') > -1))
    5. print('是否含有“两点水”这个字符串:{0}'.format('两点水' in a))

    输出的结果如下:

    1. 是否含有“两点水”这个字符串:True
    2. 是否含有“两点水”这个字符串:True

    那么,如果使用正则表达式呢?

    刚刚提到过,Python 给我们提供了 re 模块来实现正则表达式的所有功能,那么我们先使用其中的一个函数:

    1. re.findall(pattern, string[, flags])

    该函数实现了在字符串中找到正则表达式所匹配的所有子串,并组成一个列表返回,具体操作如下:

    1. import re
    2. # 设定一个常量
    3. a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
    4. # 正则表达式
    5. findall = re.findall('两点水', a)
    6. print(findall)
    7. if len(findall) > 0:
    8. print('a 含有“两点水”这个字符串')
    9. else:
    10. print('a 不含有“两点水”这个字符串')

    输出的结果:

    1. ['两点水']
    2. a 含有“两点水”这个字符串

    从输出结果可以看到,可以实现和内置函数一样的功能,可是在这里也要强调一点,上面这个例子只是方便我们理解正则表达式,这个正则表达式的写法是毫无意义的。为什么这样说呢?

    因为用 Python 自带函数就能解决的问题,我们就没必要使用正则表达式了,这样做多此一举。而且上面例子中的正则表达式设置成为了一个常量,并不是一个正则表达式的规则,正则表达式的灵魂在于规则,所以这样做意义不大。

    那么正则表达式的规则怎么写呢?先不急,我们一步一步来,先来一个简单的,找出字符串中的所有小写字母。首先我们在 findall 函数中第一个参数写正则表达式的规则,其中 [a-z] 就是匹配任何小写字母,第二个参数只要填写要匹配的字符串就行了。具体如下:

    1. import re
    2. # 设定一个常量
    3. a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
    4. # 选择 a 里面的所有小写英文字母
    5. re_findall = re.findall('[a-z]', a)
    6. print(re_findall)

    输出的结果:

    1. ['t', 'w', 'o', 'w', 'a', 't', 'e', 'r', 'l', 'i', 'a', 'n', 'g', 'd', 'i', 'a', 'n', 's', 'h', 'u', 'i', 'e', 'a', 'd', 'i', 'n', 'g', 'i', 't', 'h']

    这样我们就拿到了字符串中的所有小写字母了。