监控和指标

指标提供了对集群内部发生的事情的洞察。它们是监控和调试的宝贵资源。 Alluxio设置了一个基于Prometheus官方指标库的可配置指标系统。 该指标系统以Prometheus的公开格式来陈列指标。

Alluxio的指标被划分为根据Alluxio组件相对应的不同实例。当前支持以下实例:

  • Coordinator: Alluxio coordinator 进程。

  • Worker: Alluxio worker 进程。

  • FUSE进程: Alluxio FUSE进程,无论作为daemon set process还是通过CSI运行

使用

向目标Alluxio进程的/metrics/发送HTTP请求,获取所有指标的快照。

# Get the metrics from Alluxio processes
$ curl <COORDINATOR_HOSTNAME>:<COORDINATOR_WEB_PORT>/metrics/
$ curl <WORKER_HOSTNAME>:<WORKER_WEB_PORT>/metrics/
$ curl <FUSE_HOSTNAME>:<FUSE_WEB_PORT>/metrics/

例如,对于本地进程:

# Get the local coordinator metrics with its default web port 19999
$ curl 127.0.0.1:19999/metrics/
# Get the local worker metrics with its default web port 30000
$ curl 127.0.0.1:30000/metrics/
# Get the local fuse metrics with its default web port 49999
$ curl 127.0.0.1:49999/metrics/

集成

Prometheus

使用示例prometheus.yml配置Prometheus服务以抓取相关指标。注意,如果需要Grafana集成,则不应更改job_name

Grafana

Grafana是一个用于可视化时间序列数据的指标分析和可视化软件。 您可以使用Grafana更好地将Alluxio收集的各种指标可视化展示。 该软件允许用户更容易地查看Alluxio中内存、存储和完成运行操作的变化。

Grafana支持从Prometheus可视化数据。以下步骤可以帮助您基于Grafana和Prometheus轻松构建Alluxio监控系统。

  1. 下载Alluxio的Grafana模板JSON文件:alluxio-dashboard-template.json

  2. 将模板JSON文件导入以创建仪表板。请参阅此示例以导入仪表板。

  3. 以自定义名称,例如prometheus-alluxio,将Prometheus数据源添加到Grafana。请参阅教程以获取导入仪表板的帮助。

如果您的Grafana仪表板看起来像下面的截图,那么您已成功构建了监控系统。

默认情况下,只有集群行被展开,以显示当前状态的摘要。 进程行显示资源消耗和与JVM相关的指标,可以在顶部通过服务或实例进行过滤。 其他行显示某些组件的详细信息,可以通过实例进行过滤。

Kubernetes Operator

Operator支持使用内置的Prometheus和Grafana构建集群。配置和Grafana模板已经包括在内。只需在AlluxioCluster配置中设置以下开关:

通过节点主机名访问Grafana

Grafana会将在其主机的8080端口上公开其服务。使用kubectl获取主机名:

假设主机名是foo.kubernetes.org,那么您可以在以下地址访问Grafana服务:

通过端口转发访问Grafana

如果因网络问题无法通过节点主机名直接访问 Grafana,可以使用端口转发将 Grafana 的端口映射到本地,从而通过本地端口进行访问。

执行 kubectl port-forward 命令进行端口转发

您可以通过以下地址在本地直接访问Grafana服务:

Kubernetes中的Prometheus

将以下代码片段添加到Prometheus配置中。该配置将使Prometheus从具有特定注解的Kubernetes pod中抓取数据。

请注意,scrape_configs中的job_name需要保持不变,因为它将用作仪表板中的过滤器。

以下是所需的元数据:

Last updated