采集集群信息

首先确认 operator 启动成功,并且有 clloectinfo controller 在运行。 下面是 operator 的信息,可以看到 collectinfo controller 在运行。如果 collectinfo controller 不存在, 表明当前使用的 operator 版本不支持 collectinfo 功能,请升级 operator 版本

kubectl get pod -n alluxio-operator
NAME                                             READY   STATUS    RESTARTS   AGE
alluxio-cluster-controller-8656d54bc-x6ms6       1/1     Running   0          19s
alluxio-collectinfo-controller-cc49c56b6-wlw8k   1/1     Running   0          19s
alluxio-csi-controller-84df9646fd-4d5b8          2/2     Running   0          19s
alluxio-csi-nodeplugin-fcp7b                     2/2     Running   0          19s
alluxio-csi-nodeplugin-t59ch                     2/2     Running   0          19s
alluxio-csi-nodeplugin-vbq2q                     2/2     Running   0          19s
alluxio-ufs-controller-57fbdf8d5c-2f79l          1/1     Running   0          19s

确认 Alluxio 集群是否启动成功, 假设 Alluxio 集群在 default 命名空间下 下面是 Alluxio 集群的信息,可以看到 Alluxio 集群的各个组件都在运行

kubectl get pod 
NAME                                          READY   STATUS    RESTARTS   AGE
alluxio-coordinator-0                         1/1     Running   0          2m17s
alluxio-etcd-0                                1/1     Running   0          2m17s
alluxio-etcd-1                                1/1     Running   0          2m17s
alluxio-etcd-2                                1/1     Running   0          2m17s
alluxio-monitor-grafana-9fd587b4f-mnczs       1/1     Running   0          2m17s
alluxio-monitor-prometheus-6b55c568b8-sfp96   1/1     Running   0          2m17s
alluxio-worker-779d87567f-95wls               1/1     Running   0          2m17s
alluxio-worker-779d87567f-sgh4b               1/1     Running   0          2m17s

采集信息

创建最简单的 yaml,使用默认值采集信息。(完整的配置可以参考详细配置

假设 Alluxio 集群位于 default 命名空间,创建 collectinfo.yaml 文件,内容如下:

创建 collectinfo ,开始采集信息。

可以通过 collectinfo 的状态来查看采集信息的进度, 下面表示采集 5 种信息,全部采集完成。

collectinfo 会在 alluxio-operator 命名空间下创建多个 job ,用于采集 Alluxio 集群的信息。 默认采集全部信息,可以看到有 5 个 job 在运行,分别是 config, hardware, license, logs, metrics

采集信息失败

下面表示采集信息失败,有 4 种信息采集失败。

查看 collectinfojob 信息, 可以看到 collectinfojob 只有 hardware job 成功,其他的 job 都失败了。

无论 collectinfo 操作是成功还是失败,您都可以下载收集结果。

如果存在任何失败,结果中将包含 error.log 以供调试。

下载结果

有两种方法可以下载信息的结果:kubectl cpkubectl port-forward

结果包含以下类型的信息:

  • config: Alluxio conf/ 目录中的配置文件,例如 alluxio-site.propertiesalluxio-env.sh

  • hardware: 每个 Kubernetes 节点的 CPU 和内存详细信息。coordinator、worker、fuse 和 operator 组件的硬件规格。

  • license: Alluxio 集群的许可证信息,包括类型、productionId 和 licenseVersion。以及正在使用的 vCPU、内存和存储。

  • logs: coordinator、worker、fuse、etcd 和 operator 组件的日志。支持 tail 日志以显示末尾指定行数的日志。

  • metrics: 允许设置持续时间(duration)和步长(step),以定义指标的时间范围和采样间隔(收集所有指标)。

kubectl cp

通过 kubectl cp 的方式,将采集的信息拷贝到本地。

kubectl port-forward

通过 port-forward 的方式,将 collectinfo controller 的端口映射到本地,将远程 collectinfo controller80 端口映射到本地的 28080 端口

通过 curl 的方式,下载采集的信息

解压下载的文件

详细配置

Last updated