• re.match 和 re.search

    re.match 和 re.search

    re.match 函数

    语法:

    1. re.match(pattern, string, flags=0)

    re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match() 就返回 none。

    re.search 函数

    语法:

    1. re.search(pattern, string, flags=0)

    re.search 扫描整个字符串并返回第一个成功的匹配。

    re.match 和 re.search 的参数,基本一致的,具体描述如下:

    参数 描述
    pattern 匹配的正则表达式
    string 要匹配的字符串
    flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写

    那么它们之间有什么区别呢?

    re.match 只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回 None;而 re.search 匹配整个字符串,直到找到一个匹配。这就是它们之间的区别了。

    re.match 和 re.search 在网上有很多详细的介绍了,可是再个人的使用中,还是喜欢使用 re.findall

    看下下面的实例,可以对比下 re.search 和 re.findall 的区别,还有多分组的使用。具体看下注释,对比一下输出的结果:

    示例:

    1. #!/usr/bin/env python3
    2. # -*- coding: UTF-8 -*-
    3. # 提取图片的地址
    4. import re
    5. a = '<img src="https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg">'
    6. # 使用 re.search
    7. search = re.search('<img src="(.*)">', a)
    8. # group(0) 是一个完整的分组
    9. print(search.group(0))
    10. print(search.group(1))
    11. # 使用 re.findall
    12. findall = re.findall('<img src="(.*)">', a)
    13. print(findall)
    14. # 多个分组的使用(比如我们需要提取 img 字段和图片地址字段)
    15. re_search = re.search('<(.*) src="(.*)">', a)
    16. # 打印 img
    17. print(re_search.group(1))
    18. # 打印图片地址
    19. print(re_search.group(2))
    20. # 打印 img 和图片地址,以元祖的形式
    21. print(re_search.group(1, 2))
    22. # 或者使用 groups
    23. print(re_search.groups())

    输出的结果:

    1. <img src="https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg">
    2. https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg
    3. ['https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg']
    4. img
    5. https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg
    6. ('img', 'https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg')
    7. ('img', 'https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg')

    最后,正则表达式是非常厉害的工具,通常可以用来解决字符串内置函数无法解决的问题,而且正则表达式大部分语言都是有的。python 的用途很多,但在爬虫和数据分析这连个模块中都是离不开正则表达式的。所以正则表达式对于学习 Python 来说,真的很重要。最后,附送一些常用的正则表达式和正则表达式和 Python 支持的正则表达式元字符和语法文档。

    github:https://github.com/TwoWater/Python/blob/master/python14/%E5%B8%B8%E7%94%A8%E7%9A%84%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F.md

    欢迎大家 start ,https://github.com/TwoWater/Python 一下,这是草根学 Python 系列博客的库。也可以关注我的微信公众号:

    http://twowater.com.cn/images/20171204192251900.gif