    网络探测:Blackbox Exporter

    在本章的前几个小节中我们主要介绍了Prometheus下如何进行白盒监控,我们监控主机的资源用量、容器的运行状态、数据库中间件的运行数据。 这些都是支持业务和服务的基础设施,通过白盒能够了解其内部的实际运行状态,通过对监控指标的观察能够预判可能出现的问题,从而对潜在的不确定因素进行优化。而从完整的监控逻辑的角度,除了大量的应用白盒监控以外,还应该添加适当的黑盒监控。黑盒监控即以用户的身份测试服务的外部可见性,常见的黑盒监控包括HTTP探针、TCP探针等用于检测站点或者服务的可访问性,以及访问效率等。



    使用Blackbox Exporter

    Blackbox Exporter是Prometheus社区提供的官方黑盒监控解决方案,其允许用户通过:HTTP、HTTPS、DNS、TCP以及ICMP的方式对网络进行探测。用户可以直接使用go get命令获取Blackbox Exporter源码并生成本地可执行文件:

    1. go get prometheus/blackbox_exporter

    运行Blackbox Exporter时,需要用户提供探针的配置信息,这些配置信息可能是一些自定义的HTTP头信息,也可能是探测时需要的一些TSL配置,也可能是探针本身的验证行为。在Blackbox Exporter每一个探针配置称为一个module,并且以YAML配置文件的形式提供给Blackbox Exporter。 每一个module主要包含以下配置内容,包括探针类型(prober)、验证访问超时时间(timeout)、以及当前探针的具体配置项:

    1. # 探针类型:http、 tcp、 dns、 icmp.
    2. prober: <prober_string>
    3. # 超时时间
    4. [ timeout: <duration> ]
    5. # 探针的详细配置,最多只能配置其中的一个
    6. [ http: <http_probe> ]
    7. [ tcp: <tcp_probe> ]
    8. [ dns: <dns_probe> ]
    9. [ icmp: <icmp_probe> ]


    1. modules:
    2. http_2xx:
    3. prober: http
    4. http:
    5. method: GET
    6. http_post_2xx:
    7. prober: http
    8. http:
    9. method: POST

    通过运行以下命令,并指定使用的探针配置文件启动Blockbox Exporter实例:

    1. blackbox_exporter --config.file=/etc/prometheus/blackbox.yml


    1. # HELP probe_dns_lookup_time_seconds Returns the time taken for probe dns lookup in seconds
    2. # TYPE probe_dns_lookup_time_seconds gauge
    3. probe_dns_lookup_time_seconds 0.011633673
    4. # HELP probe_duration_seconds Returns how long the probe took to complete in seconds
    5. # TYPE probe_duration_seconds gauge
    6. probe_duration_seconds 0.117332275
    7. # HELP probe_failed_due_to_regex Indicates if probe failed due to regex
    8. # TYPE probe_failed_due_to_regex gauge
    9. probe_failed_due_to_regex 0
    10. # HELP probe_http_content_length Length of http content response
    11. # TYPE probe_http_content_length gauge
    12. probe_http_content_length 81
    13. # HELP probe_http_duration_seconds Duration of http request by phase, summed over all redirects
    14. # TYPE probe_http_duration_seconds gauge
    15. probe_http_duration_seconds{phase="connect"} 0.055551141
    16. probe_http_duration_seconds{phase="processing"} 0.049736019
    17. probe_http_duration_seconds{phase="resolve"} 0.011633673
    18. probe_http_duration_seconds{phase="tls"} 0
    19. probe_http_duration_seconds{phase="transfer"} 3.8919e-05
    20. # HELP probe_http_redirects The number of redirects
    21. # TYPE probe_http_redirects gauge
    22. probe_http_redirects 0
    23. # HELP probe_http_ssl Indicates if SSL was used for the final redirect
    24. # TYPE probe_http_ssl gauge
    25. probe_http_ssl 0
    26. # HELP probe_http_status_code Response HTTP status code
    27. # TYPE probe_http_status_code gauge
    28. probe_http_status_code 200
    29. # HELP probe_http_version Returns the version of HTTP of the probe response
    30. # TYPE probe_http_version gauge
    31. probe_http_version 1.1
    32. # HELP probe_ip_protocol Specifies whether probe ip protocol is IP4 or IP6
    33. # TYPE probe_ip_protocol gauge
    34. probe_ip_protocol 4
    35. # HELP probe_success Displays whether or not the probe was a success
    36. # TYPE probe_success gauge
    37. probe_success 1



    接下来,只需要在Prometheus下配置对Blockbox Exporter实例的采集任务即可。最直观的配置方式:

    1. - job_name: baidu_http2xx_probe
    2. params:
    3. module:
    4. - http_2xx
    5. target:
    6. - baidu.com
    7. metrics_path: /probe
    8. static_configs:
    9. - targets:
    10. -
    11. - job_name: prometheus_http2xx_probe
    12. params:
    13. module:
    14. - http_2xx
    15. target:
    16. - prometheus.io
    17. metrics_path: /probe
    18. static_configs:
    19. - targets:
    20. -


    那问题就来了,假如我们有N个目标站点且都需要M种探测方式,那么Prometheus中将包含N * M个采集任务,从配置管理的角度来说显然是不可接受的。 在第7章的“服务发现与Relabel”小节,我们介绍了Prometheus的Relabeling能力,这里我们也可以采用Relabling的方式对这些配置进行简化,配置方式如下:

    1. scrape_configs:
    2. - job_name: 'blackbox'
    3. metrics_path: /probe
    4. params:
    5. module: [http_2xx]
    6. static_configs:
    7. - targets:
    8. - http://prometheus.io # Target to probe with http.
    9. - https://prometheus.io # Target to probe with https.
    10. - http://example.com:8080 # Target to probe with http on port 8080.
    11. relabel_configs:
    12. - source_labels: [__address__]
    13. target_label: __param_target
    14. - source_labels: [__param_target]
    15. target_label: instance
    16. - target_label: __address__
    17. replacement:


    • 第1步,根据Target实例的地址,写入__param_target标签中。__param_<name>形式的标签表示,在采集任务时会在请求目标地址中添加<name>参数,等同于params的设置;
    • 第2步,获取__param_target的值,并覆写到instance标签中;
    • 第3步,覆写Target实例的__address__标签值为BlockBox Exporter实例的访问地址。


    Blackbox Target实例




    在上一小节讲过,Blockbox Exporter中所有的探针均是以Module的信息进行配置。如下所示,配置了一个最简单的HTTP探针:

    1. modules:
    2. http_2xx_example:
    3. prober: http
    4. http:

    通过prober配置项指定探针类型。配置项http用于自定义探针的探测方式,这里有没对http配置项添加任何配置,表示完全使用HTTP探针的默认配置,该探针将使用HTTP GET的方式对目标服务进行探测,并且验证返回状态码是否为2XX,是则表示验证成功,否则失败。


    HTTP服务通常会以不同的形式对外展现,有些可能就是一些简单的网页,而有些则可能是一些基于REST的API服务。 对于不同类型的HTTP的探测需要管理员能够对HTTP探针的行为进行更多的自定义设置,包括:HTTP请求方法、HTTP头信息、请求参数等。对于某些启用了安全认证的服务还需要能够对HTTP探测设置相应的Auth支持。对于HTTPS类型的服务还需要能够对证书进行自定义设置。


    1. http_post_2xx:
    2. prober: http
    3. timeout: 5s
    4. http:
    5. method: POST
    6. headers:
    7. Content-Type: application/json
    8. body: '{}'

    如果HTTP服务启用了安全认证,Blockbox Exporter内置了对basic_auth的支持,可以直接设置相关的认证信息即可:

    1. http_basic_auth_example:
    2. prober: http
    3. timeout: 5s
    4. http:
    5. method: POST
    6. headers:
    7. Host: "login.example.com"
    8. basic_auth:
    9. username: "username"
    10. password: "mysecret"

    对于使用了Bear Token的服务也可以通过bearer_token配置项直接指定令牌字符串,或者通过bearer_token_file指定令牌文件。


    1. http_custom_ca_example:
    2. prober: http
    3. http:
    4. method: GET
    5. tls_config:
    6. ca_file: "/certs/my_cert.crt"


    在默认情况下HTTP探针只会对HTTP返回状态码进行校验,如果状态码为2XX(200 <= StatusCode < 300)则表示探测成功,并且探针返回的指标probe_success值为1。


    1. http_2xx_example:
    2. prober: http
    3. timeout: 5s
    4. http:
    5. valid_http_versions: ["HTTP/1.1", "HTTP/2"]
    6. valid_status_codes: []


    1. # HELP probe_http_ssl Indicates if SSL was used for the final redirect
    2. # TYPE probe_http_ssl gauge
    3. probe_http_ssl 0


    1. http_2xx_example:
    2. prober: http
    3. timeout: 5s
    4. http:
    5. valid_status_codes: []
    6. method: GET
    7. no_follow_redirects: false
    8. fail_if_ssl: false
    9. fail_if_not_ssl: false


    1. http_2xx_example:
    2. prober: http
    3. timeout: 5s
    4. http:
    5. method: GET
    6. fail_if_matches_regexp:
    7. - "Could not connect to database"
    8. fail_if_not_matches_regexp:
    9. - "Download the latest version here"

    最后需要提醒的时,默认情况下HTTP探针会走IPV6的协议。 在大多数情况下,可以使用preferred_ip_protocol=ip4强制通过IPV4的方式进行探测。在Bloackbox响应的监控样本中,也会通过指标probe_ip_protocol,表明当前的协议使用情况:

    1. # HELP probe_ip_protocol Specifies whether probe ip protocol is IP4 or IP6
    2. # TYPE probe_ip_protocol gauge
    3. probe_ip_protocol 6
