指标提供了对集群内部发生的事情的洞察。它们是监控和调试的宝贵资源。
Alluxio 设置了一个基于Prometheus官方指标库arrow-up-right 的可配置指标系统。
该指标系统以 Prometheus 的公开格式来陈列指标。
Alluxio 的指标被划分为根据 Alluxio 组件相对应的不同实例。当前支持以下实例:
Coordinator: Alluxio coordinator 进程。
Worker: Alluxio worker 进程。
向目标 Alluxio 进程的/metrics/发送 HTTP 请求,获取所有指标的快照。
Copy # 从 Alluxio 进程获取指标
$ curl < COORDINATOR_HOSTNAM E > : < COORDINATOR_WEB_POR T > /metrics/
$ curl < WORKER_HOSTNAM E > : < WORKER_WEB_POR T > /metrics/
$ curl < FUSE_HOSTNAM E > : < FUSE_WEB_POR T > /metrics/ 例如,对于本地进程:
Copy # 从默认的19999端口获取本地 coordinator 指标
$ curl 127.0.0.1:19999/metrics/
# 从默认的30000端口获取本地 worker 指标
$ curl 127.0.0.1:30000/metrics/
# 从默认的49999端口获取本地 fuse 指标
$ curl 127.0.0.1:49999/metrics/ Metrics 页面提供了更详细的指标的描述。
Kubernetes Operator
Operator 支持使用内置的 Prometheus 和 Grafana 构建集群。默认情况下 Prometheus 和 Grafana 都会开启。
Grafana 可以被关闭,通过设置 enabled 字段为 false。Prometheus 不能被关闭。
配置和 Grafana 模板已经包括在内。只需在 AlluxioCluster 配置中设置以下开关:
Grafana 是一个用于可视化时间序列数据的指标分析和可视化软件。
您可以使用 Grafana 更好地将 Alluxio 收集的各种指标可视化展示。
该软件允许用户更容易地查看 Alluxio 中内存、存储和完成运行操作的变化。
Grafana 支持从 Prometheus 可视化数据。以下步骤可以帮助您基于 Grafana 和 Prometheus 轻松构建 Alluxio 监控系统。
以自定义名称,例如 prometheus-alluxio ,将 Prometheus 数据源添加到 Grafana。请参阅教程arrow-up-right 以获取导入仪表板的帮助。
如果您的 Grafana 仪表板看起来像下面的截图,那么您已成功构建了监控系统。
默认情况下,只有 集群 行被展开,以显示当前状态的摘要。进程 行显示资源消耗和与 JVM 相关的指标,可以在顶部通过服务或实例进行过滤。
其他行显示某些组件的详细信息,可以通过实例进行过滤。
通过节点主机名访问Grafana
Grafana 会将在其主机的 8080 端口上公开其服务。使用 kubectl 获取主机名:
假设主机名是foo.kubernetes.org,那么您可以在以下地址访问Grafana服务:
通过端口转发访问Grafana
如果因网络问题无法通过节点主机名直接访问 Grafana,可以使用端口转发将 Grafana 的端口映射到本地,从而通过本地端口进行访问。
执行 kubectl port-forward 命令进行端口转发
您可以通过以下地址在本地直接访问 Grafana 服务:
使用示例 prometheus.yml 配置 Prometheus 服务以抓取相关指标。注意,如果需要适配内置的 Grafana,则不应更改 job_name。
如果要在 Kubernetes 中启动独立的 Prometheus 服务,请参考以下代码片段,额外从 Kubernetes 环境中提取 Pod 注解。
请再次注意,如果需要适配内置的 Grafana,scrape_configs 中的 job_name 需要保持不变。
以下是所需的元数据:
Alluxio 会导出 Prometheus 格式的指标,这使得 Datadog 可以直接和Alluxio集成。
在 Datadog 配置文件的 instances 字段下增加多条 prometheus_url 配置
以下是从多个组件获取指标的配置片段:
按照以上步骤,就能让 Datadog 无缝地收集和监控 Alluxio 的指标,为您的 Alluxio 集群性能和健康状况提供深入分析与全面监控。
Last updated 7 months ago