List of Metrics

在 Alluxio 中,有两种类型的指标,集群范围内的合计指标和每个进程的详细指标。

  • 集群指标由 leading master 收集和计算的,并且在 web UI 下的指标标签下展示。 这些指标旨在提供 Alluxio 服务的集群状态以及数据与元数据总量的快照。

  • 进程指标由每个 Alluxio 进程收集,并通过任何配置的接收器以机器可读的格式暴露出来。 进程指标高度详细,旨在被第三方监测工具使用。 用户可以通过细粒度的数据面板查看每个指标的时间序列图。 比如数据传输量或 RPC 调用次数。

Alluxio 的 master 节点指标具有以下格式:

Master.[metricName].[tag1].[tag2]...

Alluxio 的非 master 节点指标具有以下格式

[processType].[metricName].[tag1].[tag2]...[hostName] 

通常情况下,Alluxio 会为每一种 RPC 调用生成一个指标,无论是调用 Alluxio 还是调用下层存储。

标签是指标的附加元数据,如用户名或存储位置。 标签可用于进一步筛选或聚合各种特征。

集群指标

Worker 和 client 通过心跳包将指标数据发送到 Alluxio master。心跳间隔分别由 alluxio.master.worker.heartbeat.intervalalluxio.user.metrics.heartbeat.interval 属性定义。

字节指标是来自 worker 或 client 的聚合值。字节吞吐量指标是在 master 上计算的。 字节吞吐量的值等于字节指标计数器值除以指标记录时间,并以字节/分钟的形式呈现。

名称类型描述

Cluster.ActiveRpcReadCount

COUNTER

worker 上进行中的 read-RPC 数量

Cluster.ActiveRpcWriteCount

COUNTER

worker 上进行中的 write-RPC 数量

Cluster.BytesReadDirect

COUNTER

汇总在所有 worker 上不通过 RPC 读取的字节数。这记录了 worker 内部调用(e.g. 嵌入在 worker 中的客户端)读取的数据,数据存在于 worker 缓存中或由 worker 从 UFS 获取

Cluster.BytesReadDirectThroughput

GAUGE

汇总在所有 worker 上不通过 RPC 读取字节的吞吐量。这记录了 worker 内部调用(e.g. 嵌入在 worker 中的客户端)读取的数据,数据存在于 worker 缓存中或由 worker 从 UFS 获取

Cluster.BytesReadDomain

COUNTER

从所有 worker 通过域套接字读取的总字节数

Cluster.BytesReadDomainThroughput

GAUGE

通过域套接字从所有 worker 每分钟读取字节的吞吐量

Cluster.BytesReadLocal

COUNTER

由所有客户端报告的短路读取的总字节数

Cluster.BytesReadLocalThroughput

GAUGE

由所有客户端报告的每分钟短路读取字节的吞吐量

Cluster.BytesReadPerUfs

COUNTER

所有 worker 从特定 UFS 读取的字节数总和

Cluster.BytesReadRemote

COUNTER

从所有 worker 通过网络(RPC)读取的总字节数。数据存在于 worker 存储中,或者由 worker 从 UFS 获取。这不包括本地短路读和域套接字读

Cluster.BytesReadRemoteThroughput

GAUGE

从所有 worker 通过网络(RPC 调用)每分钟读取的字节数吞吐量。数据存在于 worker 存储中,或者由 worker 从 UFS 获取。这不包括短路本地读取和域套接字读取

Cluster.BytesReadUfsAll

COUNTER

所有 worker 从所有 UFS 读取的字节数总和

Cluster.BytesReadUfsThroughput

GAUGE

所有 worker 从所有 UFS 每分钟读取的字节数吞吐量

Cluster.BytesWrittenDomain

COUNTER

通过域套接字写入所有 worker 的字节数总和

Cluster.BytesWrittenDomainThroughput

GAUGE

通过域套接字向所有 worker 每分钟写入字节的吞吐量

Cluster.BytesWrittenLocal

COUNTER

所有客户端短路写入到本地 worker 数据存储的字节数总和

Cluster.BytesWrittenLocalThroughput

GAUGE

所有客户端每分钟写入本地 worker 数据存储字节的吞吐量

Cluster.BytesWrittenPerUfs

COUNTER

所有 worker 向特定的 Alluxio UFS 写入的字节数总和

Cluster.BytesWrittenRemote

COUNTER

通过网络(RPC)写入 worker 的字节数总和。数据被写入 worker 存储,或者由 worker 写入底层 UFS。其中不包括短路本地写入和域套接字写入

Cluster.BytesWrittenRemoteThroughput

GAUGE

通过网络(RPC)每分钟向 worker 写入字节的吞吐量。数据被写入 worker 存储,或者由 worker 写入底层 UFS。其中不包括短路本地写入和域套接字写入

Cluster.BytesWrittenUfsAll

COUNTER

所有 worker 向所有 UFS 写入的字节数总和

Cluster.BytesWrittenUfsThroughput

GAUGE

所有 worker 每分钟向所有 UFS 写入字节的吞吐量

Cluster.CacheHitRate

GAUGE

缓存命中率:(#从缓存读取的字节数)/(#请求的字节数)

Cluster.CapacityFree

GAUGE

Alluxio 所有 worker 上所有层的总空闲字节数

Cluster.CapacityTotal

GAUGE

Alluxio 所有 worker 上所有层的总容量(以字节为单位)

Cluster.CapacityUsed

GAUGE

Alluxio 所有 worker 上所有层的使用字节总数

Cluster.LeaderId

GAUGE

展示当前 primary master id

Cluster.LeaderIndex

GAUGE

当前 primary master 的序号

Cluster.LostWorkers

GAUGE

集群内丢失的 worker 总数

Cluster.RootUfsCapacityFree

GAUGE

Alluxio 根 UFS 的空闲容量(以字节为单位)

Cluster.RootUfsCapacityTotal

GAUGE

Alluxio 根 UFS 的总容量(以字节为单位)

Cluster.RootUfsCapacityUsed

GAUGE

Alluxio 根 UFS 的使用容量(以字节为单位)

Cluster.Workers

GAUGE

集群内活跃的 worker 总数

进程指标

所有 Alluxio 服务器和客户端进程共享的指标。

名称类型描述

Process.pool.direct.mem.used

GAUGE

NIO Direct buffer pool已使用的直接内存

服务器指标

Alluxio 服务器共享的指标。

名称类型描述

Server.JvmPauseMonitorInfoTimeExceeded

GAUGE

JVM 暂停时间长于 alluxio.jvm.monitor.info.threshold 阈值的总次数

Server.JvmPauseMonitorTotalExtraTime

GAUGE

JVM 暂停的总时间,JVM暂停通常由GC或jstack等事件引发

Server.JvmPauseMonitorWarnTimeExceeded

GAUGE

JVM 暂停时间长于 alluxio.jvm.monitor.warn.threshold 阈值的总次数

Master 指标

默认 Master 指标:

名称类型描述

Master.AbsentCacheHits

GAUGE

Absent cache(记录不存在的路径)的缓存命中次数

Master.AbsentCacheMisses

GAUGE

Absent cache(记录不存在的路径)的缓存未命中次数

Master.AbsentCacheSize

GAUGE

Absent cache(记录不存在的路径)的大小

Master.AbsentPathCacheQueueSize

GAUGE

Alluxio 维护了一个Absent cache(记录不存在的路径),这是正在处理的 UFS 路径数量。

Master.AsyncPersistCancel

COUNTER

已取消的 AsyncPersist 操作数量

Master.AsyncPersistFail

COUNTER

失败的 AsyncPersist 操作数量

Master.AsyncPersistFileCount

COUNTER

AsyncPersist 操作创建的文件数量

Master.AsyncPersistFileSize

COUNTER

AsyncPersist 操作创建的文件总大小

Master.AsyncPersistSuccess

COUNTER

成功的 AsyncPersist 操作数量

Master.AuditLogEntriesSize

GAUGE

审核日志条目队列的大小

Master.BlockHeapSize

GAUGE

数据块元数据占 JVM 堆大小的估计值

Master.BlockReplicaCount

GAUGE

Alluxio 中块副本的总数

Master.CachedBlockLocations

GAUGE

Master.CompleteFileOps

COUNTER

CompleteFile 操作的总数

Master.CompletedOperationRetryCount

COUNTER

已由客户端重试的完成操作总数

Master.CreateDirectoryOps

COUNTER

CreateDirectory 操作的总数

Master.CreateFileOps

COUNTER

CreateFile 操作的总数

Master.DeletePathOps

COUNTER

Delete 操作的总数

Master.DirectoriesCreated

COUNTER

CreateDirectory 操作的总数

Master.EdgeCacheEvictions

GAUGE

从缓存中删除的边(inode 元数据)总数。边缓存负责管理从(parentId,childName)到 childId 的映射

Master.EdgeCacheHits

GAUGE

边(inode 元数据)缓存的命中总数。边缓存负责管理从(parentId,childName)到 childId 的映射

Master.EdgeCacheLoadTimes

GAUGE

导致缓存未命中的边(inode 元数据)缓存的总加载时间。边缓存负责管理从(parentId,childName)到 childId 的映射

Master.EdgeCacheMisses

GAUGE

边(inode 元数据)缓存的未命中总数。边缓存负责管理从(parentId,childName)到 childId 的映射

Master.EdgeCacheSize

GAUGE

缓存的边(inode 元数据)总数。边缓存负责管理从(parentId,childName)到 childId 的映射

Master.EdgeLockPoolSize

GAUGE

Edge 锁池的大小

Master.EmbeddedJournalLastSnapshotDownloadDiskSize

GAUGE

Master.EmbeddedJournalLastSnapshotDownloadDurationMs

GAUGE

Master.EmbeddedJournalLastSnapshotDownloadSize

GAUGE

Master.EmbeddedJournalLastSnapshotDurationMs

GAUGE

Master.EmbeddedJournalLastSnapshotEntriesCount

GAUGE

Master.EmbeddedJournalLastSnapshotReplayDurationMs

GAUGE

Master.EmbeddedJournalLastSnapshotReplayEntriesCount

GAUGE

Master.EmbeddedJournalLastSnapshotUploadDiskSize

GAUGE

Master.EmbeddedJournalLastSnapshotUploadDurationMs

GAUGE

Master.EmbeddedJournalLastSnapshotUploadSize

GAUGE

Master.EmbeddedJournalSnapshotDownloadDiskHistogram

HISTOGRAM

Master.EmbeddedJournalSnapshotDownloadGenerate

TIMER

描述从集群中的其他主机下载日志快照所需的时间。只有在使用嵌入式日志时有效。使用此指标可以确定 Alluxio 主机之间是否存在潜在的通信瓶颈

Master.EmbeddedJournalSnapshotDownloadHistogram

HISTOGRAM

Master.EmbeddedJournalSnapshotGenerateTimer

TIMER

描述在此主机上生成本地日志快照所需的时间。只有在使用嵌入式日志时有效。使用此指标可以测量 Alluxio 快照生成的性能

Master.EmbeddedJournalSnapshotInstallTimer

TIMER

描述从另一个主机安装下载的日志快照所需的时间。只有在使用嵌入式日志时有效。使用此指标可以确定 Alluxio 在从 leader 安装快照时的性能。较高的数字可能表示磁盘性能低或 CPU 竞争大

Master.EmbeddedJournalSnapshotLastIndex

GAUGE

表示此主机在最近的本地快照或从集群中另一个主机下载的快照中记录的最新日志索引。只有在使用嵌入式日志时才有效

Master.EmbeddedJournalSnapshotReplayTimer

TIMER

描述将日志快照重放到主机状态机所需的时间。只有在使用嵌入式日志时才有效。使用此指标确定 Alluxio 重放日志快照文件时的性能。较高的数字可能表示磁盘性能低或 CPU 竞争大

Master.EmbeddedJournalSnapshotUploadDiskHistogram

HISTOGRAM

Master.EmbeddedJournalSnapshotUploadHistogram

HISTOGRAM

Master.EmbeddedJournalSnapshotUploadTimer

TIMER

Master.FileBlockInfosGot

COUNTER

成功的 GetFileBlockInfo 操作总数

Master.FileInfosGot

COUNTER

成功的 GetFileInfo 操作总数

Master.FileSize

GAUGE

文件大小分布

Master.FilesCompleted

COUNTER

成功的 CompleteFile 操作总数

Master.FilesCreated

COUNTER

成功的 CreateFile 操作总数

Master.FilesFreed

COUNTER

成功的 FreeFile 操作总数

Master.FilesPersisted

COUNTER

成功持久化的文件总数

Master.FilesPinned

GAUGE

当前固定的文件总数

Master.FilesToBePersisted

GAUGE

当前待持久化的文件总数

Master.FreeFileOps

COUNTER

FreeFile 操作总数

Master.GetFileBlockInfoOps

COUNTER

GetFileBlockInfo 操作总数

Master.GetFileInfoOps

COUNTER

GetFileInfo 操作总数

Master.GetNewBlockOps

COUNTER

GetNewBlock 操作总数

Master.InodeCacheEvictions

GAUGE

缓存逐出的 inode 总数

Master.InodeCacheHitRatio

GAUGE

Inode 缓存命中率

Master.InodeCacheHits

GAUGE

inode(inode 元数据)缓存的命中总数

Master.InodeCacheLoadTimes

GAUGE

缓存未命中导致的 inode(inode 元数据)加载次数总数

Master.InodeCacheMisses

GAUGE

inode 缓存未命中总数

Master.InodeCacheSize

GAUGE

inode(inode 元数据)缓存的总数

Master.InodeHeapSize

GAUGE

inode 堆大小的估计值

Master.InodeLockPoolSize

GAUGE

master inode lock pool 大小

Master.JobCanceled

COUNTER

取消状态异步任务数

Master.JobCompleted

COUNTER

完成状态异步任务数

Master.JobCount

GAUGE

所有状态任务数

Master.JobCreated

COUNTER

创建状态任务数

Master.JobDistributedLoadBlockSizes

COUNTER

Master.JobDistributedLoadCancel

COUNTER

取消的 DistributedLoad 操作数

Master.JobDistributedLoadFail

COUNTER

失败的 DistributedLoad 操作数

Master.JobDistributedLoadFileCount

COUNTER

DistributedLoad 操作的文件数

Master.JobDistributedLoadFileSizes

COUNTER

DistributedLoad 操作的文件大小

Master.JobDistributedLoadRate

METER

平均 DistributedLoad 加载率

Master.JobDistributedLoadSuccess

COUNTER

DistributedLoad 操作成功数

Master.JobFailed

COUNTER

失败状态异步任务数

Master.JobLoadBlockCount

COUNTER

Master.JobLoadBlockFail

COUNTER

Master.JobLoadFail

COUNTER

Master.JobLoadRate

METER

Master.JobLoadSuccess

COUNTER

Master.JobRunning

COUNTER

运行中状态异步任务数

Master.JournalCheckpointWarn

GAUGE

alluxio.master.journal.checkpoint.period.entries,并且最后一个检查点超过了 alluxio.master.journal.checkpoint.warning.threshold.time,则返回 1 以指示需要警告,否则返回 0

Master.JournalEntriesSinceCheckPoint

GAUGE

自上次检查点以来的日志条目数

Master.JournalFlushFailure

COUNTER

日志刷新失败的总数

Master.JournalFlushTimer

TIMER

日志刷新计时器统计

Master.JournalFreeBytes

GAUGE

Alluxio 主机的日志磁盘上剩余的字节。此指标仅在 Linux 上使用内置日志时有效。使用此指标监视日志是否耗尽磁盘空间

Master.JournalFreePercent

GAUGE

Alluxio 主机日志磁盘剩余字节。此指标仅在 Linux 上且使用内置日志时有效。使用此指标监控日志是否有剩余磁盘空间

Master.JournalGainPrimacyTimer

TIMER

日志获得优先权的计时器统计信息

Master.JournalLastAppliedCommitIndex

GAUGE

最后一个被应用到状态机的 raft 日志索引

Master.JournalLastCheckPointTime

GAUGE

上一个日志检查点时间

Master.JournalSequenceNumber

GAUGE

当前日志序列号

Master.LastBackupEntriesCount

GAUGE

上次主元数据备份中写入的条目总数

Master.LastBackupRestoreCount

GAUGE

当 primary master 初始化元数据时,从备份还原的条目总数

Master.LastBackupRestoreTimeMs

GAUGE

最后一次从备份恢复的过程时间

Master.LastBackupTimeMs

GAUGE

上一次备份的时间

Master.LastGainPrimacyTime

GAUGE

Master.LastLosePrimacyTime

GAUGE

Master.ListingCacheEvictions

COUNTER

master 节点列表缓存中的总淘汰次数

Master.ListingCacheHits

COUNTER

master 列表缓存中的命中总数

Master.ListingCacheLoadTimes

COUNTER

master 列表缓存的总加载时间(以纳秒为单位),这是由缓存未命中所导致的

Master.ListingCacheMisses

COUNTER

master 列表缓存中的未命中总数

Master.ListingCacheSize

GAUGE

master 列表缓存大小

Master.LostBlockCount

GAUGE

丢失数据块计数

Master.LostFileCount

GAUGE

丢失文件的数量。这个数字是被缓存的,可能与 Master.LostBlockCount 不同步

Master.MetadataSyncActivePaths

COUNTER

所有 InodeSyncStream 实例中正在进行的路径数量

Master.MetadataSyncExecutor

EXECUTOR_SERVICE

master 元数据同步执行器线程的指标。Master.MetadataSyncExecutor.submitted 是提交给执行器的任务的计数。Master.MetadataSyncExecutor.completed 是执行器完成的任务的计数。Master.MetadataSyncExecutor.activeTaskQueue 是在执行器中每次添加新任务时计算的活动任务(运行或提交)的幂指数衰减随机容器的数量。最大值是执行过程中任何时候的活动任务的最大数量。Master.MetadataSyncExecutor.running 是执行器正在运行的任务数量。Master.MetadataSyncExecutor.idle 是提交的任务(即在执行前等待队列)闲置的时间。Master.MetadataSyncExecutor.duration 是运行提交的任务的时间。如果执行器是线程池执行器,则 Master.MetadataSyncExecutor.queueSize 是任务队列的大小

Master.MetadataSyncExecutorQueueSize

GAUGE

元数据同步线程池中排队的同步任务数,由 alluxio.master.metadata.sync.executor.pool.size 控制

Master.MetadataSyncFail

COUNTER

InodeSyncStream 失败的次数,无论是部分失败还是完全失败

Master.MetadataSyncNoChange

COUNTER

未更改 inodes 的 InodeSyncStream 完成数量

Master.MetadataSyncOpsCount

COUNTER

元数据同步操作的数量。每个同步操作对应于一个 InodeSyncStream 实例

Master.MetadataSyncPathsCancel

COUNTER

所有最终被忽略而没被处理的 InodeSyncStream 实例中未决路径的数量

Master.MetadataSyncPathsFail

COUNTER

在元数据同步所有 InodeSyncStream 实例期间失败的路径数量。

Master.MetadataSyncPathsSuccess

COUNTER

从所有 InodeSyncStream 实例同步的路径数量

Master.MetadataSyncPendingPaths

COUNTER

所有活跃 InodeSyncStream 实例中等待元数据同步的的待处理路径数量

Master.MetadataSyncPrefetchCancel

COUNTER

从元数据同步取消的预取任务数量(由于重复的预取请求)

Master.MetadataSyncPrefetchExecutor

EXECUTOR_SERVICE

关于主元数据同步预取执行线程的指标。Master.MetadataSyncPrefetchExecutor.submitted 是提交给执行器的任务的计数器。Master.MetadataSyncPrefetchExecutor.completed 是由执行器完成的任务的计数器。Master.MetadataSyncPrefetchExecutor.activeTaskQueue 是在执行器上运行或提交的活动任务的指数衰减随机容器,每次向执行器添加新任务时计算。最大值是执行期间任意时间内的最大活动任务数。Master.MetadataSyncPrefetchExecutor.running 是执行器正在运行的任务数。Master.MetadataSyncPrefetchExecutor.idle 是提交的任务(即等待队列中之前执行的时间)的空闲时间。Master.MetadataSyncPrefetchExecutor.duration 是运行提交的任务的时间。如果执行器是线程池执行器,则 Master.MetadataSyncPrefetchExecutor.queueSize 是任务队列的大小。

Master.MetadataSyncPrefetchExecutorQueueSize

GAUGE

元数据同步线程池中排队的预取任务数,由 alluxio.master.metadata.sync.ufs.prefetch.pool.size 控制

Master.MetadataSyncPrefetchFail

COUNTER

元数据同步中失败的预取工作数量

Master.MetadataSyncPrefetchOpsCount

COUNTER

由预取线程池处理的预取操作数量

Master.MetadataSyncPrefetchPaths

COUNTER

元数据同步预取任务获取的 UFS 路径总数

Master.MetadataSyncPrefetchRetries

COUNTER

元数据同步预取任务的重试获取次数

Master.MetadataSyncPrefetchSuccess

COUNTER

元数据同步预取任务的成功获取次数

Master.MetadataSyncSkipped

COUNTER

由于 Alluxio 元数据比 alluxio.user.file.metadata.sync.interval 更新而跳过的 InodeSyncStream 数量

Master.MetadataSyncSuccess

COUNTER

InodeSyncStream 成功次数

Master.MetadataSyncTimeMs

COUNTER

所有 InodeSyncStream 实例存在总时间

Master.MetadataSyncUfsMount.

COUNTER

对给定 UFS 挂载点进行 UFS sync 操作的次数

Master.MigrateJobCancel

COUNTER

MigrateJob 取消次数

Master.MigrateJobFail

COUNTER

MigrateJob 失败次数

Master.MigrateJobFileCount

COUNTER

MigrateJob 文件数

Master.MigrateJobFileSize

COUNTER

MigrateJob 文件体积之和

Master.MigrateJobSuccess

COUNTER

MigrateJob 操作成功次数

Master.MountOps

COUNTER

Mount 操作次数

Master.NewBlocksGot

COUNTER

GetNewBlock 操作成功次数

Master.PathsDeleted

COUNTER

Delete 操作成功次数

Master.PathsMounted

COUNTER

Mount 操作成功次数

Master.PathsRenamed

COUNTER

Rename 操作成功次数

Master.PathsUnmounted

COUNTER

Unmount 操作成功次数

Master.RenamePathOps

COUNTER

Rename 操作次数

Master.ReplicaMgmtActiveJobSize

GAUGE

活跃块复制/逐出任务的数。这些任务由 master 创建,以维护块副本因子。该值带有一定延迟,是估计值

Master.ReplicationLimitedFiles

COUNTER

Master.RocksBlockBackgroundErrors

GAUGE

RocksDB 块表。背景错误累积数

Master.RocksBlockBlockCacheCapacity

GAUGE

RocksDB 块表。块缓存容量

Master.RocksBlockBlockCachePinnedUsage

GAUGE

RocksDB 块表。固定条目内存体积

Master.RocksBlockBlockCacheUsage

GAUGE

RocksDB 块表。存储在块缓存中的条目的内存大小

Master.RocksBlockCompactionPending

GAUGE

RocksDB 块表。如果有至少一个压缩操作正在等待,则此指标为 1;否则,此指标为 0

Master.RocksBlockCurSizeActiveMemTable

GAUGE

RocksDB 块表。活跃 MemTable 的近似字节大小

Master.RocksBlockCurSizeAllMemTables

GAUGE

RocksDB 块表。活跃的、未刷新且不可变的,和固定住不可变的 MemTable 的以字节为单位的近似大小。固定不可变内存表是被保留在内存中的刷新内存表,用于在内存中保留写入历史记录

Master.RocksBlockEstimateNumKeys

GAUGE

RocksDB 块表。活跃和未刷新地不可变 MemTable 以及存储中总键数的估计值

Master.RocksBlockEstimatePendingCompactionBytes

GAUGE

RocksDB 块表。估计一次压缩需要在磁盘上重写的总字节数,以使所有层降到目标大小之下。换句话说,这个指标与层压缩中的写入放大率有关。因此,这个指标对层压缩以外的压缩是无效的。

Master.RocksBlockEstimateTableReadersMem

GAUGE

RocksDB inode 表。以字节为单位估计用于读取 SST 表的内存,不包括块缓存中使用的内存(e.g. 过滤器和索引块)。如果过滤器和索引不在块缓存中维护,此指标记录迭代器使用的内存以及过滤器和索引。此指标基本上反映了读取数据时块缓存外使用的内存

Master.RocksBlockEstimatedMemUsage

GAUGE

RocksDB块表。这个指标通过聚合 Master.RocksBlockBlockCacheUsage、Master.RocksBlockEstimateTableReadersMem、Master.RocksBlockCurSizeAllMemTables 和 Master.RocksBlockBlockCachePinnedUsage 的值来估计 RockDB 块表的内存使用情况。

Master.RocksBlockLiveSstFilesSize

GAUGE

RocksDB块表。属于最新 LSM 树的所有 SST 文件以字节为单位的总大小

Master.RocksBlockMemTableFlushPending

GAUGE

RocksDB 块表。如果 Memtable 刷新操作正在等待,则此指标为 1;否则为 0

Master.RocksBlockNumDeletesActiveMemTable

GAUGE

RocksDB 块表。活跃 Memtable 中的删除条目总数

Master.RocksBlockNumDeletesImmMemTables

GAUGE

RocksDB 块表。未刷新不可变 MemTable 中删除条目的总数

Master.RocksBlockNumEntriesActiveMemTable

GAUGE

RocksDB 块表。活跃 MemTable 中的条目总数

Master.RocksBlockNumEntriesImmMemTables

GAUGE

RocksDB 块表。未刷新不可变 MemTable 中的条目总数

Master.RocksBlockNumImmutableMemTable

GAUGE

RocksDB 块表。尚未刷新的不可变 MemTable 的数量

Master.RocksBlockNumLiveVersions

GAUGE

RocksDB inode 表。存活版本数。存活版本较多时,通常意味着更多 SST 文件被迭代器或未完成的压缩保留而未被删除

Master.RocksBlockNumRunningCompactions

GAUGE

RocksDB 块表。当前正在运行的压缩数量

Master.RocksBlockNumRunningFlushes

GAUGE

RocksDB 块表。当前正在运行的刷新数量。

Master.RocksBlockSizeAllMemTables

GAUGE

RocksDB 块表。所有 MemTable 的大小

Master.RocksBlockTotalSstFilesSize

GAUGE

RocksDB 块表。所有 SST 文件以字节为单位的总大小

Master.RocksInodeBackgroundErrors

GAUGE

RocksDB inode 表。后台错误累积数

Master.RocksInodeBlockCacheCapacity

GAUGE

RocksDB inode 表。 块缓存容量

Master.RocksInodeBlockCachePinnedUsage

GAUGE

RocksDB inode 表。固定键内存体积

Master.RocksInodeBlockCacheUsage

GAUGE

RocksDB inode 表。这是用来描述存储在块缓存中的条目内存大小的指标

Master.RocksInodeCompactionPending

GAUGE

RocksDB inode 表。 如果至少有一个压缩操作正在等待则该指标为 1;否则,该指标为 0

Master.RocksInodeCurSizeActiveMemTable

GAUGE

RocksDB inode 表。活跃 MemTable 以字节为单位的近似大小

Master.RocksInodeCurSizeAllMemTables

GAUGE

RocksDB inode 表。活跃和未刷新不可变 MemTable 以字节为单位的近似大小

Master.RocksInodeEstimateNumKeys

GAUGE

RocksDB inode 表。活跃和未刷新不可变 MemTable 以及存储中所有键的估计数量

Master.RocksInodeEstimatePendingCompactionBytes

GAUGE

RocksDB 块表。估计一次压缩为了将所有层降到目标大小以下需要在磁盘上重写的总字节数。换句话说,这个指标与层压缩中的写入放大率有关。因此,这个指标对层压缩以外的压缩是无效的

Master.RocksInodeEstimateTableReadersMem

GAUGE

RocksDB inode 表。估计用于读取SST表的字节数,不包括用于块缓存的内存(e.g. 过滤器和索引块)。如果过滤器和索引不在块缓存中维护,则这个指标记录了迭代器以及过滤器和索引所使用的内存。这个指标基本上反应了在块缓存之外用于读取数据的内存。

Master.RocksInodeEstimatedMemUsage

GAUGE

RocksDB 块表。这个指标通过聚合 Master.RocksInodeBlockCacheUsage、Master.RocksInodeEstimateTableReadersMem、Master.RocksInodeCurSizeAllMemTables 和 Master.RocksInodeBlockCachePinnedUsage 的值,估计了 RockDB Inode 表的内存使用情况

Master.RocksInodeLiveSstFilesSize

GAUGE

RocksDB inode 表。属于最新 LSM 树的所有 SST 文件以字节为单位的总大小

Master.RocksInodeMemTableFlushPending

GAUGE

RocksDB inode 表。如果 MemTable 刷新正在等待,则该指标为 1;否则,该指标为 0

Master.RocksInodeNumDeletesActiveMemTable

GAUGE

RocksDB inode 表。活跃 MemTable 中删除条目的总数

Master.RocksInodeNumDeletesImmMemTables

GAUGE

RocksDB inode table. 未刷新不可变 MemTable 中删除条目的总数

Master.RocksInodeNumEntriesActiveMemTable

GAUGE

RocksDB inode 表。活跃 MemTable 中的总条目数

Master.RocksInodeNumEntriesImmMemTables

GAUGE

RocksDB inode 表。未刷新不可变 MemTable 中的总条目数

Master.RocksInodeNumImmutableMemTable

GAUGE

RocksDB inode 表。尚未刷新的不可变 MemTable 的数量

Master.RocksInodeNumLiveVersions

GAUGE

RocksDB inode 表。活跃版本的数量。更多的活跃版本通常意味着被迭代器或未完成的压缩保留的不被删除的 SST 文件更多

Master.RocksInodeNumRunningCompactions

GAUGE

RocksDB inode 表。当前正在进行的压缩数量

Master.RocksInodeNumRunningFlushes

GAUGE

RocksDB inode 表。当前正在进行的刷新数量

Master.RocksInodeSizeAllMemTables

GAUGE

RocksDB inode 表。当前活跃的,为刷新不变的,以及固定不变的 MemTable 以字节为单位的近似体积。固定不变的 MemTable 是保留在内存中用于维护内存写入历史更新过的 MemTable

Master.RocksInodeTotalSstFilesSize

GAUGE

RocksDB inode 表。所有 SST 文件以字节为单位的总体积。

Master.RocksTotalEstimatedMemUsage

GAUGE

这个指标通过汇总 Master.RocksBlockEstimatedMemUs age 和 Master.RocksInodeEstimatedMemUsage 的值,给出了 RocksDB 内存使用总量

Master.RoleId

GAUGE

展示 master role id

Master.RpcQueueLength

GAUGE

master RPC 队列的长度。使用这个指标来监控 master 上的 RPC 压力

Master.RpcThreadActiveCount

GAUGE

在 master RPC 执行器线程池中正在积极执行任务的线程数量。使用这个指标来监控 master 上的 RPC 压力

Master.RpcThreadCurrentCount

GAUGE

当前 master RPC 执行器线程池中的线程数。使用这个指标来监控主服务器上的 RPC 压力

Master.SetAclOps

COUNTER

SetAcl 操作总次数

Master.SetAttributeOps

COUNTER

SetAttribute 操作总次数

Master.StartTime

GAUGE

Master.TTLBuckets

GAUGE

Master.TTLInodes

GAUGE

Master.ToRemoveBlockCount

GAUGE

要从 worker 中移除的块副本数量。如果 1 个块要从 2 个 worker 中移除,会被记为 2 个

Master.TotalPaths

GAUGE

Alluxio 命名空间中的文件和目录总数

Master.TotalRpcs

TIMER

master RPC 调用的吞吐量。这个指标表明 master 服务客户端请求的繁忙程度

Master.UfsJournalCatchupTimer

TIMER

日志追赶的定时器统计只在使用 Ufs 日志时有效。它提供了一个 standby master 赶上 master 所需时间的概要,如果 master 转换时间过长则应进行监控

Master.UfsJournalFailureRecoverTimer

TIMER

UFS 日志故障恢复的定时器统计数据

Master.UfsJournalInitialReplayTimeMs

GAUGE

启动时 UFS 日志初始回放过程的持续时间。只在使用 UFS 日志时有效。它记录了第一次日志回放的持续时间。使用这个指标来监测你的 master 启动时间是否过长

Master.UfsStatusCacheChildrenSize

COUNTER

UFS 文件元数据缓存总量。该缓存在元数据同步期间使用

Master.UfsStatusCacheSize

COUNTER

正在由元数据同步预取线程池处理的 Alluxio 路径总数

Master.UniqueBlocks

GAUGE

Alluxio 中数据块总数(不算副本)

Master.UnmountOps

COUNTER

Unmount 操作总次数

动态生成的 Master 指标:

名称描述

Master.CapacityTotalTier{TIER_NAME}

Alluxio 文件系统中层 {TIER_NAME} 以字节为单位的总容量

Master.CapacityUsedTier{TIER_NAME}

Alluxio 文件系统中层 {TIER_NAME} 以字节为单位已使用的容量

Master.CapacityFreeTier{TIER_NAME}

Alluxio 文件系统中层 {TIER_NAME} 以字节为单位未使用的容量

Master.UfsSessionCount-Ufs:{UFS_ADDRESS}

当前打开并连接到给定 {UFS_ADDRESS} 的 UFS 会话数

Master.{UFS_RPC_NAME}.UFS:{UFS_ADDRESS}.UFS_TYPE:{UFS_TYPE}.User:{USER}

当前 master 完成的 UFS RPC 操作细节

Master.PerUfsOp{UFS_RPC_NAME}.UFS:{UFS_ADDRESS}

当前主 master 在 UFS {UFS_ADDRESS} 上运行的 UFS 操作 {UFS_RPC_NAME} 的总数

Master.{LEADING_MASTER_RPC_NAME}

主 master 上暴露的 RPC 调用的持续时间统计信息

Worker 指标

默认 worker 指标:

名称类型描述

Worker.ActiveClients

COUNTER

正在活跃地读取或写入此 worker 的客户端数量

Worker.ActiveRpcReadCount

COUNTER

此 worker 管理的读 RPC 数量

Worker.ActiveRpcWriteCount

COUNTER

此 worker 管理的写 RPC 数量

Worker.BlockReaderCompleteTaskCount

GAUGE

已经完成执行的读任务的近似值

Worker.BlockReaderThreadActiveCount

GAUGE

reader 线程池中正在活跃执行任务的读线程数量的近似值

Worker.BlockReaderThreadCurrentCount

GAUGE

此 reader 线程池中的读线程数

Worker.BlockReaderThreadMaxCount

GAUGE

reader 线程池中读线程允许的最大数量

Worker.BlockRemoverBlocksRemovedCount

COUNTER

此 worker 中被 asynchronous block remover 成功移除的块的总数量

Worker.BlockRemoverRemovingBlocksSize

GAUGE

asynchronous block remover 正在从此 worker 移除的块大小

Worker.BlockRemoverTryRemoveBlocksSize

GAUGE

asynchronous block remover 正要从此 worker 移除的块大小

Worker.BlockRemoverTryRemoveCount

COUNTER

asynchronous block remover 尝试从此 worker 移除的块大小

Worker.BlockSerializedCompleteTaskCount

GAUGE

完成执行的块序列化任务完成总量近似值

Worker.BlockSerializedThreadActiveCount

GAUGE

serialized 线程池中正在活跃执行任务的 block serialized 线程近似数量

Worker.BlockSerializedThreadCurrentCount

GAUGE

此 serialized 线程池中 block serialized 线程数量

Worker.BlockSerializedThreadMaxCount

GAUGE

serialized 线程池中 block serialized 线程允许的最大数量

Worker.BlockWriterCompleteTaskCount

GAUGE

已经完成执行的 block serialized 任务的近似值

Worker.BlockWriterThreadActiveCount

GAUGE

writer 线程池中正在活跃执行任务的写线程数量的近似值

Worker.BlockWriterThreadCurrentCount

GAUGE

此 writer 线程池中的写线程数

Worker.BlockWriterThreadMaxCount

GAUGE

writer 线程池中写线程允许的最大数量

Worker.BlocksAccessed

COUNTER

此 worker 中数据块被访问的总次数

Worker.BlocksCached

GAUGE

一个 Alluxio worker 中被用于缓存数据的块总数

Worker.BlocksCancelled

COUNTER

此 worker 中废弃的临时块总量

Worker.BlocksDeleted

COUNTER

此 worker 中被外部请求删除的块总量

Worker.BlocksEvicted

COUNTER

此 worker 中被驱逐的块总量

Worker.BlocksEvictionRate

METER

此 worker 的块驱逐率

Worker.BlocksLost

COUNTER

此 worker 丢失块总量

Worker.BlocksPromoted

COUNTER

此 worker 中,任何一个块被移到新层的总次数

Worker.BlocksReadLocal

COUNTER

通过此 worker 本地读的数据块总数

Worker.BlocksReadRemote

COUNTER

通过此 worker 远程读的数据块总数

Worker.BlocksReadUfs

COUNTER

通过此 worker 从 UFS 读取的数据块总数

Worker.BytesReadDirect

COUNTER

此 worker 中没有外部 RPC 参与的总字节数。数据存在于 worker 存储中或者由此 worker 从底层 UFS 获取。此指标记录了 worker 内部调用读取的数据(e.g. 嵌入在此 worker 中的客户端)

Worker.BytesReadDirectThroughput

METER

此 worker 中没有涉及外部 RPC 的字节读取吞吐量。数据存在于 worker 存储中或由该 worker 从底层 UFS 中获取。这记录了 worker 内部调用(e.g. 位于此 worker 中的客户端)读取的数据

Worker.BytesReadDomain

COUNTER

此 worker 通过域套接字读取的总字节数

Worker.BytesReadDomainThroughput

METER

此 worker 通过域套接字读取字节的吞吐量

Worker.BytesReadPerUfs

COUNTER

此 worker 从特定 UFS 读取的总字节数

Worker.BytesReadRemote

COUNTER

通过网络(RPC)远程读取此 worker 的字节总数。数据存在于 worker 存储中或由该 worker 从底层 UFS 获取。这不包括短路本地读取和域套接字读取

Worker.BytesReadRemoteThroughput

METER

这是一项衡量通过网络(RPC)从此 worker 读取的字节数的吞吐量的指标。数据存在于 worker 存储中,或者由该 worker 从底层 UFS 中获取。这不包括短路本地读取和域套接字读取

Worker.BytesReadUfsThroughput

METER

由此 worker 从 UFS 读取字节的吞吐量

Worker.BytesWrittenDirect

COUNTER

不涉及外部 RPC写入此 worker 的总字节数。数据写入 worker 存储或由此 worker 写入下层 UFS。这记录了 worker 内部调用(e.g. 嵌入在 此 worker 中的客户端)写入的数据

Worker.BytesWrittenDirectThroughput

METER

不涉及外部 RPC 写入此 worker 的字节吞吐量。数据写入 worker 存储或由此 worker 写入下层 UFS。这记录了 worker 内部调用(e.g. 嵌入在此 worker 中的客户端)写入的数据

Worker.BytesWrittenDomain

COUNTER

通过域套接字写入此 worker 的总字节数

Worker.BytesWrittenDomainThroughput

METER

通过域套接字写入此 worker 的吞吐量

Worker.BytesWrittenPerUfs

COUNTER

此 worker 向特定 UFS 写入的总字节数

Worker.BytesWrittenRemote

COUNTER

通过网络(RPC)写入此 worker 的总字节数。数据写入 worker 存储或由此 worker 写入下层 UFS。这不包括短路本地写入和域套接字写入

Worker.BytesWrittenRemoteThroughput

METER

通过网络(RPC)写入此 worker 的字节写入吞吐量。数据写入 worker 存储或由此 worker 写入下层 UFS。这不包括短路本地写入和域套接字写入

Worker.BytesWrittenUfsThroughput

METER

此 worker 向所有 Alluxio UFS 写入字节的吞吐量

Worker.CacheBlocksSize

COUNTER

通过缓存请求缓存的字节量

Worker.CacheFailedBlocks

COUNTER

此 worker 缓存块失败数量

Worker.CacheManagerCompleteTaskCount

GAUGE

已经完成执行的块缓存任务的近似量

Worker.CacheManagerThreadActiveCount

GAUGE

cache manager 线程池中正在活跃执行任务的块缓存线程数量的近似值

Worker.CacheManagerThreadCurrentCount

GAUGE

此 cache manager 线程池中的块缓存线程数

Worker.CacheManagerThreadMaxCount

GAUGE

cache manager 线程池中块缓存线程允许的最大数量

Worker.CacheManagerThreadQueueWaitingTaskCount

GAUGE

此 worker 中 cache manager 线程池中工作队列中等待的任务数,受 alluxio.worker.network.async.cache.manager.queue.max 的限制。

Worker.CacheRemoteBlocks

COUNTER

此 worker 需要从远程源缓存的块的总数

Worker.CacheRequests

COUNTER

此 worker 收到的缓存请求总数

Worker.CacheRequestsAsync

COUNTER

此 worker 收到的异步缓存请求的总数

Worker.CacheRequestsSync

COUNTER

此 worker 收到的同步缓存请求的总数

Worker.CacheSucceededBlocks

COUNTER

此 worker 中的缓存成功的块的总数

Worker.CacheUfsBlocks

COUNTER

此 worker 中需要从本地源缓存的块的总数

Worker.CapacityFree

GAUGE

此 Alluxio worker 的所有层级上的总空闲字节

Worker.CapacityTotal

GAUGE

此 Alluxio worker 在所有层次上以字节为单位的总容量

Worker.CapacityUsed

GAUGE

此 Alluxio worker 所有层级上使用的总字节数

Worker.MasterRegistrationSuccessCount

COUNTER

Worker.RpcQueueLength

GAUGE

worker RPC 队列的长度。用此指标监视 worker 的 RPC 压力

Worker.RpcThreadActiveCount

GAUGE

此 worker RPC 执行程序线程池中正在执行任务的线程数。用此指标监视 worker 的 RPC 压力

Worker.RpcThreadCurrentCount

GAUGE

此 worker RPC 执行器线程池中的线程数。用此指标监视 worker 的 RPC 压力

动态的 worker 指标:

名称描述

Worker.UfsSessionCount-Ufs:{UFS_ADDRESS}

当前打开并连接到给定 {UFS_ADDRESS} 的 UFS 会话数

Worker.{RPC_NAME}

worker 上暴露的 RPC 调用的持续时间统计信息

Client 指标

每个客户端度量将使用其本地主机名或配置的 alluxio.user.app.id 进行记录。 如果配置了 alluxio.user.app.id,多个客户端可以组合成一个逻辑应用。

名称类型描述

Client.BlockMasterClientCount

COUNTER

BlockMasterClientPool 中实例数量

Client.BlockReadChunkRemote

TIMER

该客户端从远程 Alluxio worker 读取数据chunk数量。当 alluxio.user.block.read.metrics.enabled 设置为 true 时,才会记录此指标

Client.BlockWorkerClientCount

COUNTER

BlockWorkerClientPool 中实例数量

Client.BusyExceptionCount

COUNTER

观察到的 BusyException 数量

Client.BytesReadLocal

COUNTER

该客户端短路读取的总字节数

Client.BytesReadLocalThroughput

METER

该客户端短路读取的字节吞吐量

Client.BytesWrittenLocal

COUNTER

该客户端短路写入 Alluxio 缓存的字节总数

Client.BytesWrittenLocalThroughput

METER

该客户端短路写入 Alluxio 缓存的字节吞吐量

Client.BytesWrittenUfs

COUNTER

该客户端写入 UFS 的字节数

Client.CacheBytesDiscarded

METER

该客户端缓存丢弃的总字节数

Client.CacheBytesEvicted

METER

该客户端缓存驱逐的总字节数

Client.CacheBytesReadCache

METER

从该客户端缓存读的总字节数

Client.CacheBytesReadExternal

METER

由于该客户端缓存未命中从 Alluxio 集群读取的总字节数。chunk read 可能导致这个数字小于 Client.CacheBytesReadExternal

Client.CacheBytesReadInStreamBuffer

METER

从该客户端缓存的输入流缓冲区中读取的总字节数

Client.CacheBytesRequestedExternal

METER

引起缓存未命中的用户读请求总字节数。这个数字可能会比 Client.CacheBytesReadExternal 小,因为它可能被分成多个块读取

Client.CacheBytesWrittenCache

METER

向该客户端缓存写入的总字节数

Client.CacheCleanErrors

COUNTER

该客户端为了初始化新缓存时清理已存在缓存路径的失败总数

Client.CacheCleanupGetErrors

COUNTER

该客户端清理失败内存读取失败总数

Client.CacheCleanupPutErrors

COUNTER

该客户端清理失败内存写入失败总数

Client.CacheCreateErrors

COUNTER

在该客户端缓存中创建缓存的失败总数

Client.CacheDeleteErrors

COUNTER

在该客户端缓存中删除缓存数据的失败总数

Client.CacheDeleteFromStoreErrors

COUNTER

该客户端删除页的失败总数

Client.CacheDeleteNonExistingPageErrors

COUNTER

该客户端由于页缺失导致删除页失败的总数

Client.CacheDeleteNotReadyErrors

COUNTER

该客户端由于缓存未就绪删除页失败的总数

Client.CacheGetErrors

COUNTER

从该客户端缓存中获取缓存数据失败总数

Client.CacheGetNotReadyErrors

COUNTER

该客户端由于缓存未就绪获取页失败的总数

Client.CacheGetStoreReadErrors

COUNTER

该客户端由于从页存储读取失败导致客户端缓存中获取缓存数据失败的次数

Client.CacheHitRate

GAUGE

缓存命中率:(# 从缓存读取的字节数)/(# 请求的字节数)

Client.CachePageReadCacheTimeNanos

METER

该客户端缓存命中时读取页面时间(ns)

Client.CachePageReadExternalTimeNanos

METER

该客户端当缓存未命中时,从外部源读取数据所花费时间(ns)

Client.CachePages

COUNTER

该客户端缓存中的总页数

Client.CachePagesDiscarded

METER

该客户端恢复页存储时丢失页的总数

Client.CachePagesEvicted

METER

从该客户端缓存中驱逐页的总数

Client.CachePutAsyncRejectionErrors

COUNTER

该客户端缓存中放置缓存数据时,由于异步写队列注入失败而导致的失败次数

Client.CachePutBenignRacingErrors

COUNTER

该客户端由于驱逐竞争而导致的缓存页添加失败的次数。这个错误是良性的

Client.CachePutErrors

COUNTER

向该客户端缓存中放置缓存数据的失败次数

Client.CachePutEvictionErrors

COUNTER

该客户端由于驱逐失败而导致的缓存页添加失败的次数。这个错误是良性的

Client.CachePutInsufficientSpaceErrors

COUNTER

该客户端由于在驱逐后空间不足导致的将缓存数据放入客户端缓存时的失败次数

Client.CachePutNotReadyErrors

COUNTER

该客户端由于缓存不能准备好添加页,添加页失败的次数

Client.CachePutStoreDeleteErrors

COUNTER

该客户端在页存储中删除失败导致的缓存数据放置失败的次数

Client.CachePutStoreWriteErrors

COUNTER

该客户端由于向页面存储写入失败而导致的将缓存数据放入客户端缓存中失败的次数

Client.CachePutStoreWriteNoSpaceErrors

COUNTER

该客户端未达到缓存容量上限但磁盘已满时将缓存数据放入客户端缓存时失败的次数。如果低估写入数据的存储开销比例,这种情况就可能会发生

Client.CacheShadowCacheBytes

COUNTER

该客户端 shadow cache 的字节数

Client.CacheShadowCacheBytesHit

COUNTER

该客户端 shadow cache 命中的字节数

Client.CacheShadowCacheBytesRead

COUNTER

这个从客户端 shadow cache 读取的字节数

Client.CacheShadowCacheFalsePositiveRatio

COUNTER

该客户端正在使用的工作集布隆过滤器犯错的概率。该值为 0-100。如果太高,则需要分配更多空间

Client.CacheShadowCachePages

COUNTER

该客户端 shadow cache 中页的数量

Client.CacheShadowCachePagesHit

COUNTER

该客户端 shadow cache 中页的命中次数

Client.CacheShadowCachePagesRead

COUNTER

从该客户端 shadow cache 中读取页的数量

Client.CacheSpaceAvailable

GAUGE

该客户端缓存中可用字节数

Client.CacheSpaceUsed

GAUGE

该客户端缓存使用字节数

Client.CacheSpaceUsedCount

COUNTER

该客户端缓存用作计数器的字节数量

Client.CacheState

COUNTER

缓存状态:0(不在使用中),1(只读),2(读写)

Client.CacheStoreDeleteTimeout

COUNTER

该客户端从页存储中删除页超时次数

Client.CacheStoreGetTimeout

COUNTER

该客户端从页存储中读取页超时次数

Client.CacheStorePutTimeout

COUNTER

该客户端向页存储中写入新页超时次数

Client.CacheStoreThreadsRejected

COUNTER

该客户端向线程池提交任务时拒绝 I/O 线程的次数,可能是由于本地文件系统无响应。

Client.CloseAlluxioOutStreamLatency

TIMER

Client.CloseUFSOutStreamLatency

TIMER

Client.DefaultHiveClientCount

COUNTER

DefaultHiveClientPool 中实例数量

Client.FileSystemMasterClientCount

COUNTER

FileSystemMasterClientPool 中实例数量

Client.MetadataCacheSize

GAUGE

该客户端被缓存的文件和目录的元数据总数。只在文件系统为 alluxio.client.file.MetadataCachingBaseFileSystem 时有效

Fuse 指标

Fuse 是长期运行的 Alluxio 客户端。 根据启动方式,Fuse 指标将显示为:

  • 当文件系统客户端在独立的 AlluxioFuse 进程中启动时,显示为客户端指标。

  • 当 Fuse 客户端嵌入在 AlluxioWorker 进程中时,显示为 worker 指标。

Fuse metrics includes:

描述类型描述

Fuse.CachedPathCount

GAUGE

缓存的 Alluxio 路径映射的总数。这个值小于或等于 alluxio.fuse.cached.paths.max

Fuse.ReadWriteFileCount

GAUGE

当前被打开的读写文件数量

Fuse.TotalCalls

TIMER

JNI FUSE 操作调用的吞吐量。此指标表明 Alluxio Fuse 应用处理请求的繁忙程度

Fuse 读/写文件数量可用作 Fuse 应用程序压力的指标。 如果在短时间内发生大量并发读/写操作,则每个读/写操作可能需要更长的时间来完成。

当用户或应用程序在 Fuse 挂载点下运行文件系统命令时,该命令将由操作系统处理和转换,并触发在 AlluxioFuse 中暴露的相关 Fuse 操作。每个操作被调用的次数以及每次调用的持续时间将使用动态指标名称 Fuse.<FUSE_OPERATION_NAME> 记录。

重要的 Fuse 指标包括:

名称描述

Fuse.readdir

列出目录的持续时间指标

Fuse.getattr

获取文件元数据的持续时间指标

Fuse.open

打开文件进行读或覆写的持续时间指标

Fuse.read

读取文件的一部分的持续时间指标

Fuse.create

为了写入创建文件的持续时间指标

Fuse.write

写入文件的持续时间指标

Fuse.release

在读取或写入后关闭文件的持续时间指标。请注意,释放是异步的,因此 FUSE 线程不会等待释放完成

Fuse.mkdir

创建目录的持续时间指标

Fuse.unlink

删除文件或目录的持续时间指标

Fuse.rename

重命名文件或目录的持续时间指标

Fuse.chmod

更改文件或目录模式的持续时间指标

Fuse.chown

修改文件或目录的用户和/或组所有权的持续时间指标

Fuse相关的指标包括:

  • Client.TotalRPCClients 显示用于连接到或可连接到 master 或 worker 进行操作的 RPC 客户端的总数。

  • 带有 Direct 关键字的 worker 指标。当 Fuse 嵌入到 worker 进程中时,它可以通过 worker 内部 API 从该 worker 读取/写入。 相关指标以 Direct 结尾。例如,Worker.BytesReadDirect 显示该 worker 为其嵌入的 Fuse 客户端提供读取的字节数。

  • 如果配置了 alluxio.user.block.read.metrics.enabled=true,则会记录 Client.BlockReadChunkRemote。 该指标显示通过 gRPC 从远程 worker 读取数据的持续时间统计。

Client.TotalRPCClientsFuse.TotalCalls 指标是 Fuse 应用程序当前负载的优秀指标。 如果在 Alluxio Fuse 上运行应用程序(e.g. Tensorflow),但这两个指标值比之前低得多,则训练作业可能会卡在 Alluxio 上。

普通进程指标

在每个实例(Master、Worker 或 Client)上收集的指标。

JVM Attributes

名称描述

name

JVM 名称

uptime

JVM 的运行时间

vendor

当前的 JVM 供应商

GC 统计

名称描述

PS-MarkSweep.count

标记和清除 old gen 的总数

PS-MarkSweep.time

标记和清除 old gen 的总时间

PS-Scavenge.count

清除 young gen 总数

PS-Scavenge.time

清除 young gen 总时间

内存使用情况

Alluxio 提供整体和详细的内存使用信息。 每个进程中代码缓存、压缩类空间、元数据空间、PS Eden 空间、PS old gen 以及 PS survivor 空间的详细内存使用信息都会被收集。

以下是内存使用指标的子集:

名称描述

total.committed

保证可供 JVM 使用的以字节为单位的内存数量

total.init

可供 JVM 使用的以字节为单位的内存数量

total.max

以字节为单位的 JVM 可用的最大内存量

total.used

以字节为单位当前使用的内存大小

heap.committed

在堆上保证可用的内存大小

heap.init

初始化时堆上可用的内存量

heap.max

在堆上可用的最大内存量

heap.usage

堆上当前正在使用的以 GB 为单位的内存量

heap.used

堆上当前已经使用过的以 GB 为单位的内存量

pools.Code-Cache.used

内存池中用于编译和存储本地代码的内存总量

pools.Compressed-Class-Space.used

内存池中用于类元数据的内存总量

pools.PS-Eden-Space.used

内存池中用于大多数对象初始分配的内存总量

pools.PS-Survivor-Space.used

从包含在 Eden space 的垃圾回收中幸存下来的对象的池中使用的内存总量

类加载统计

名称描述

loaded

加载的类总数

unloaded

未加载的类总量

线程统计

名称描述

count

当前存活线程数

daemon.count

当前守护线程的数量

peak.count

存活线程数峰值

total_started.count

启动线程总数

deadlock.count

死锁线程总数

deadlock

与每个线程有关的死锁的调用栈

new.count

有新状态的线程数

blocked.count

阻塞态线程数

runnable.count

可运行状态线程数

terminated.count

终结态线程数

timed_waiting.count

定时等待状态的线程数量

Last updated