Last updated
Last updated
首先确认 operator
启动成功,并且有 clloectinfo controller
在运行。 下面是 operator
的信息,可以看到 collectinfo controller
在运行。如果 collectinfo controller
不存在, 表明当前使用的 operator
版本不支持 collectinfo
功能,请升级 operator
版本
确认 Alluxio 集群是否启动成功, 假设 Alluxio 集群在 default
命名空间下 下面是 Alluxio 集群的信息,可以看到 Alluxio 集群的各个组件都在运行
假设 Alluxio 集群位于 default
命名空间,创建 collectinfo.yaml
文件,内容如下:
创建 collectinfo
,开始采集信息。
可以通过 collectinfo
的状态来查看采集信息的进度, 下面表示采集 5 种信息,全部采集完成。
collectinfo
会在 alluxio-operator
命名空间下创建多个 job
,用于采集 Alluxio 集群的信息。 默认采集全部信息,可以看到有 5 个 job
在运行,分别是 config
, hardware
, license
, logs
, metrics
。
下面表示采集信息失败,有 4 种信息采集失败。
查看 collectinfo
的 job
信息, 可以看到 collectinfo
的 job
只有 hardware job
成功,其他的 job
都失败了。
无论 collectinfo
操作是成功还是失败,您都可以下载收集结果。
如果存在任何失败,结果中将包含 error.log
以供调试。
有两种方法可以下载信息的结果:kubectl cp
和 kubectl port-forward
。
结果包含以下类型的信息:
config: Alluxio conf/ 目录中的配置文件,例如 alluxio-site.properties
和 alluxio-env.sh
。
hardware: 每个 Kubernetes 节点的 CPU 和内存详细信息。coordinator、worker、fuse 和 operator 组件的硬件规格。
license: Alluxio 集群的许可证信息,包括类型、productionId 和 licenseVersion。以及正在使用的 vCPU、内存和存储。
logs: coordinator、worker、fuse、etcd 和 operator 组件的日志。支持 tail 日志以显示末尾指定行数的日志。
metrics: 允许设置持续时间(duration)和步长(step),以定义指标的时间范围和采样间隔(收集所有指标)。
通过 kubectl cp
的方式,将采集的信息拷贝到本地。
通过 port-forward
的方式,将 collectinfo controller
的端口映射到本地,将远程 collectinfo controller
的 80
端口映射到本地的 28080
端口
通过 curl
的方式,下载采集的信息
解压下载的文件
创建最简单的 yaml,使用默认值采集信息。(完整的配置可以参考)