List of Metrics
在 Alluxio 中,有两种类型的指标,集群范围内的合计指标和每个进程的详细指标。
集群指标由 leading master 收集和计算的,并且在 web UI 下的指标标签下展示。 这些指标旨在提供 Alluxio 服务的集群状态以及数据与元数据总量的快照。
进程指标由每个 Alluxio 进程收集,并通过任何配置的接收器以机器可读的格式暴露出来。 进程指标高度详细,旨在被第三方监测工具使用。 用户可以通过细粒度的数据面板查看每个指标的时间序列图。 比如数据传输量或 RPC 调用次数。
Alluxio 的 master 节点指标具有以下格式:
Alluxio 的非 master 节点指标具有以下格式
通常情况下,Alluxio 会为每一种 RPC 调用生成一个指标,无论是调用 Alluxio 还是调用下层存储。
标签是指标的附加元数据,如用户名或存储位置。 标签可用于进一步筛选或聚合各种特征。
集群指标
Worker 和 client 通过心跳包将指标数据发送到 Alluxio master。心跳间隔分别由 alluxio.master.worker.heartbeat.interval
和 alluxio.user.metrics.heartbeat.interval
属性定义。
字节指标是来自 worker 或 client 的聚合值。字节吞吐量指标是在 master 上计算的。 字节吞吐量的值等于字节指标计数器值除以指标记录时间,并以字节/分钟的形式呈现。
Cluster.ActiveRpcReadCount
COUNTER
worker 上进行中的 read-RPC 数量
Cluster.ActiveRpcWriteCount
COUNTER
worker 上进行中的 write-RPC 数量
Cluster.BytesReadDirect
COUNTER
汇总在所有 worker 上不通过 RPC 读取的字节数。这记录了 worker 内部调用(e.g. 嵌入在 worker 中的客户端)读取的数据,数据存在于 worker 缓存中或由 worker 从 UFS 获取
Cluster.BytesReadDirectThroughput
GAUGE
汇总在所有 worker 上不通过 RPC 读取字节的吞吐量。这记录了 worker 内部调用(e.g. 嵌入在 worker 中的客户端)读取的数据,数据存在于 worker 缓存中或由 worker 从 UFS 获取
Cluster.BytesReadDomain
COUNTER
从所有 worker 通过域套接字读取的总字节数
Cluster.BytesReadDomainThroughput
GAUGE
通过域套接字从所有 worker 每分钟读取字节的吞吐量
Cluster.BytesReadLocal
COUNTER
由所有客户端报告的短路读取的总字节数
Cluster.BytesReadLocalThroughput
GAUGE
由所有客户端报告的每分钟短路读取字节的吞吐量
Cluster.BytesReadPerUfs
COUNTER
所有 worker 从特定 UFS 读取的字节数总和
Cluster.BytesReadRemote
COUNTER
从所有 worker 通过网络(RPC)读取的总字节数。数据存在于 worker 存储中,或者由 worker 从 UFS 获取。这不包括本地短路读和域套接字读
Cluster.BytesReadRemoteThroughput
GAUGE
从所有 worker 通过网络(RPC 调用)每分钟读取的字节数吞吐量。数据存在于 worker 存储中,或者由 worker 从 UFS 获取。这不包括短路本地读取和域套接字读取
Cluster.BytesReadUfsAll
COUNTER
所有 worker 从所有 UFS 读取的字节数总和
Cluster.BytesReadUfsThroughput
GAUGE
所有 worker 从所有 UFS 每分钟读取的字节数吞吐量
Cluster.BytesWrittenDomain
COUNTER
通过域套接字写入所有 worker 的字节数总和
Cluster.BytesWrittenDomainThroughput
GAUGE
通过域套接字向所有 worker 每分钟写入字节的吞吐量
Cluster.BytesWrittenLocal
COUNTER
所有客户端短路写入到本地 worker 数据存储的字节数总和
Cluster.BytesWrittenLocalThroughput
GAUGE
所有客户端每分钟写入本地 worker 数据存储字节的吞吐量
Cluster.BytesWrittenPerUfs
COUNTER
所有 worker 向特定的 Alluxio UFS 写入的字节数总和
Cluster.BytesWrittenRemote
COUNTER
通过网络(RPC)写入 worker 的字节数总和。数据被写入 worker 存储,或者由 worker 写入底层 UFS。其中不包括短路本地写入和域套接字写入
Cluster.BytesWrittenRemoteThroughput
GAUGE
通过网络(RPC)每分钟向 worker 写入字节的吞吐量。数据被写入 worker 存储,或者由 worker 写入底层 UFS。其中不包括短路本地写入和域套接字写入
Cluster.BytesWrittenUfsAll
COUNTER
所有 worker 向所有 UFS 写入的字节数总和
Cluster.BytesWrittenUfsThroughput
GAUGE
所有 worker 每分钟向所有 UFS 写入字节的吞吐量
Cluster.CacheHitRate
GAUGE
缓存命中率:(#从缓存读取的字节数)/(#请求的字节数)
Cluster.CapacityFree
GAUGE
Alluxio 所有 worker 上所有层的总空闲字节数
Cluster.CapacityTotal
GAUGE
Alluxio 所有 worker 上所有层的总容量(以字节为单位)
Cluster.CapacityUsed
GAUGE
Alluxio 所有 worker 上所有层的使用字节总数
Cluster.LeaderId
GAUGE
展示当前 primary master id
Cluster.LeaderIndex
GAUGE
当前 primary master 的序号
Cluster.LostWorkers
GAUGE
集群内丢失的 worker 总数
Cluster.RootUfsCapacityFree
GAUGE
Alluxio 根 UFS 的空闲容量(以字节为单位)
Cluster.RootUfsCapacityTotal
GAUGE
Alluxio 根 UFS 的总容量(以字节为单位)
Cluster.RootUfsCapacityUsed
GAUGE
Alluxio 根 UFS 的使用容量(以字节为单位)
Cluster.Workers
GAUGE
集群内活跃的 worker 总数
进程指标
所有 Alluxio 服务器和客户端进程共享的指标。
Process.pool.direct.mem.used
GAUGE
NIO Direct buffer pool已使用的直接内存
服务器指标
Alluxio 服务器共享的指标。
Server.JvmPauseMonitorInfoTimeExceeded
GAUGE
JVM 暂停时间长于 alluxio.jvm.monitor.info.threshold 阈值的总次数
Server.JvmPauseMonitorTotalExtraTime
GAUGE
JVM 暂停的总时间,JVM暂停通常由GC或jstack等事件引发
Server.JvmPauseMonitorWarnTimeExceeded
GAUGE
JVM 暂停时间长于 alluxio.jvm.monitor.warn.threshold 阈值的总次数
Master 指标
默认 Master 指标:
Master.AbsentCacheHits
GAUGE
Absent cache(记录不存在的路径)的缓存命中次数
Master.AbsentCacheMisses
GAUGE
Absent cache(记录不存在的路径)的缓存未命中次数
Master.AbsentCacheSize
GAUGE
Absent cache(记录不存在的路径)的大小
Master.AbsentPathCacheQueueSize
GAUGE
Alluxio 维护了一个Absent cache(记录不存在的路径),这是正在处理的 UFS 路径数量。
Master.AsyncPersistCancel
COUNTER
已取消的 AsyncPersist 操作数量
Master.AsyncPersistFail
COUNTER
失败的 AsyncPersist 操作数量
Master.AsyncPersistFileCount
COUNTER
AsyncPersist 操作创建的文件数量
Master.AsyncPersistFileSize
COUNTER
AsyncPersist 操作创建的文件总大小
Master.AsyncPersistSuccess
COUNTER
成功的 AsyncPersist 操作数量
Master.AuditLogEntriesSize
GAUGE
审核日志条目队列的大小
Master.BlockHeapSize
GAUGE
数据块元数据占 JVM 堆大小的估计值
Master.BlockReplicaCount
GAUGE
Alluxio 中块副本的总数
Master.CachedBlockLocations
GAUGE
Master.CompleteFileOps
COUNTER
CompleteFile 操作的总数
Master.CompletedOperationRetryCount
COUNTER
已由客户端重试的完成操作总数
Master.CreateDirectoryOps
COUNTER
CreateDirectory 操作的总数
Master.CreateFileOps
COUNTER
CreateFile 操作的总数
Master.DeletePathOps
COUNTER
Delete 操作的总数
Master.DirectoriesCreated
COUNTER
CreateDirectory 操作的总数
Master.EdgeCacheEvictions
GAUGE
从缓存中删除的边(inode 元数据)总数。边缓存负责管理从(parentId,childName)到 childId 的映射
Master.EdgeCacheHits
GAUGE
边(inode 元数据)缓存的命中总数。边缓存负责管理从(parentId,childName)到 childId 的映射
Master.EdgeCacheLoadTimes
GAUGE
导致缓存未命中的边(inode 元数据)缓存的总加载时间。边缓存负责管理从(parentId,childName)到 childId 的映射
Master.EdgeCacheMisses
GAUGE
边(inode 元数据)缓存的未命中总数。边缓存负责管理从(parentId,childName)到 childId 的映射
Master.EdgeCacheSize
GAUGE
缓存的边(inode 元数据)总数。边缓存负责管理从(parentId,childName)到 childId 的映射
Master.EdgeLockPoolSize
GAUGE
Edge 锁池的大小
Master.EmbeddedJournalLastSnapshotDownloadDiskSize
GAUGE
Master.EmbeddedJournalLastSnapshotDownloadDurationMs
GAUGE
Master.EmbeddedJournalLastSnapshotDownloadSize
GAUGE
Master.EmbeddedJournalLastSnapshotDurationMs
GAUGE
Master.EmbeddedJournalLastSnapshotEntriesCount
GAUGE
Master.EmbeddedJournalLastSnapshotReplayDurationMs
GAUGE
Master.EmbeddedJournalLastSnapshotReplayEntriesCount
GAUGE
Master.EmbeddedJournalLastSnapshotUploadDiskSize
GAUGE
Master.EmbeddedJournalLastSnapshotUploadDurationMs
GAUGE
Master.EmbeddedJournalLastSnapshotUploadSize
GAUGE
Master.EmbeddedJournalSnapshotDownloadDiskHistogram
HISTOGRAM
Master.EmbeddedJournalSnapshotDownloadGenerate
TIMER
描述从集群中的其他主机下载日志快照所需的时间。只有在使用嵌入式日志时有效。使用此指标可以确定 Alluxio 主机之间是否存在潜在的通信瓶颈
Master.EmbeddedJournalSnapshotDownloadHistogram
HISTOGRAM
Master.EmbeddedJournalSnapshotGenerateTimer
TIMER
描述在此主机上生成本地日志快照所需的时间。只有在使用嵌入式日志时有效。使用此指标可以测量 Alluxio 快照生成的性能
Master.EmbeddedJournalSnapshotInstallTimer
TIMER
描述从另一个主机安装下载的日志快照所需的时间。只有在使用嵌入式日志时有效。使用此指标可以确定 Alluxio 在从 leader 安装快照时的性能。较高的数字可能表示磁盘性能低或 CPU 竞争大
Master.EmbeddedJournalSnapshotLastIndex
GAUGE
表示此主机在最近的本地快照或从集群中另一个主机下载的快照中记录的最新日志索引。只有在使用嵌入式日志时才有效
Master.EmbeddedJournalSnapshotReplayTimer
TIMER
描述将日志快照重放到主机状态机所需的时间。只有在使用嵌入式日志时才有效。使用此指标确定 Alluxio 重放日志快照文件时的性能。较高的数字可能表示磁盘性能低或 CPU 竞争大
Master.EmbeddedJournalSnapshotUploadDiskHistogram
HISTOGRAM
Master.EmbeddedJournalSnapshotUploadHistogram
HISTOGRAM
Master.EmbeddedJournalSnapshotUploadTimer
TIMER
Master.FileBlockInfosGot
COUNTER
成功的 GetFileBlockInfo 操作总数
Master.FileInfosGot
COUNTER
成功的 GetFileInfo 操作总数
Master.FileSize
GAUGE
文件大小分布
Master.FilesCompleted
COUNTER
成功的 CompleteFile 操作总数
Master.FilesCreated
COUNTER
成功的 CreateFile 操作总数
Master.FilesFreed
COUNTER
成功的 FreeFile 操作总数
Master.FilesPersisted
COUNTER
成功持久化的文件总数
Master.FilesPinned
GAUGE
当前固定的文件总数
Master.FilesToBePersisted
GAUGE
当前待持久化的文件总数
Master.FreeFileOps
COUNTER
FreeFile 操作总数
Master.GetFileBlockInfoOps
COUNTER
GetFileBlockInfo 操作总数
Master.GetFileInfoOps
COUNTER
GetFileInfo 操作总数
Master.GetNewBlockOps
COUNTER
GetNewBlock 操作总数
Master.InodeCacheEvictions
GAUGE
缓存逐出的 inode 总数
Master.InodeCacheHitRatio
GAUGE
Inode 缓存命中率
Master.InodeCacheHits
GAUGE
inode(inode 元数据)缓存的命中总数
Master.InodeCacheLoadTimes
GAUGE
缓存未命中导致的 inode(inode 元数据)加载次数总数
Master.InodeCacheMisses
GAUGE
inode 缓存未命中总数
Master.InodeCacheSize
GAUGE
inode(inode 元数据)缓存的总数
Master.InodeHeapSize
GAUGE
inode 堆大小的估计值
Master.InodeLockPoolSize
GAUGE
master inode lock pool 大小
Master.JobCanceled
COUNTER
取消状态异步任务数
Master.JobCompleted
COUNTER
完成状态异步任务数
Master.JobCount
GAUGE
所有状态任务数
Master.JobCreated
COUNTER
创建状态任务数
Master.JobDistributedLoadBlockSizes
COUNTER
Master.JobDistributedLoadCancel
COUNTER
取消的 DistributedLoad 操作数
Master.JobDistributedLoadFail
COUNTER
失败的 DistributedLoad 操作数
Master.JobDistributedLoadFileCount
COUNTER
DistributedLoad 操作的文件数
Master.JobDistributedLoadFileSizes
COUNTER
DistributedLoad 操作的文件大小
Master.JobDistributedLoadRate
METER
平均 DistributedLoad 加载率
Master.JobDistributedLoadSuccess
COUNTER
DistributedLoad 操作成功数
Master.JobFailed
COUNTER
失败状态异步任务数
Master.JobLoadBlockCount
COUNTER
Master.JobLoadBlockFail
COUNTER
Master.JobLoadFail
COUNTER
Master.JobLoadRate
METER
Master.JobLoadSuccess
COUNTER
Master.JobRunning
COUNTER
运行中状态异步任务数
Master.JournalCheckpointWarn
GAUGE
alluxio.master.journal.checkpoint.period.entries,并且最后一个检查点超过了 alluxio.master.journal.checkpoint.warning.threshold.time,则返回 1 以指示需要警告,否则返回 0
Master.JournalEntriesSinceCheckPoint
GAUGE
自上次检查点以来的日志条目数
Master.JournalFlushFailure
COUNTER
日志刷新失败的总数
Master.JournalFlushTimer
TIMER
日志刷新计时器统计
Master.JournalFreeBytes
GAUGE
Alluxio 主机的日志磁盘上剩余的字节。此指标仅在 Linux 上使用内置日志时有效。使用此指标监视日志是否耗尽磁盘空间
Master.JournalFreePercent
GAUGE
Alluxio 主机日志磁盘剩余字节。此指标仅在 Linux 上且使用内置日志时有效。使用此指标监控日志是否有剩余磁盘空间
Master.JournalGainPrimacyTimer
TIMER
日志获得优先权的计时器统计信息
Master.JournalLastAppliedCommitIndex
GAUGE
最后一个被应用到状态机的 raft 日志索引
Master.JournalLastCheckPointTime
GAUGE
上一个日志检查点时间
Master.JournalSequenceNumber
GAUGE
当前日志序列号
Master.LastBackupEntriesCount
GAUGE
上次主元数据备份中写入的条目总数
Master.LastBackupRestoreCount
GAUGE
当 primary master 初始化元数据时,从备份还原的条目总数
Master.LastBackupRestoreTimeMs
GAUGE
最后一次从备份恢复的过程时间
Master.LastBackupTimeMs
GAUGE
上一次备份的时间
Master.LastGainPrimacyTime
GAUGE
Master.LastLosePrimacyTime
GAUGE
Master.ListingCacheEvictions
COUNTER
master 节点列表缓存中的总淘汰次数
Master.ListingCacheHits
COUNTER
master 列表缓存中的命中总数
Master.ListingCacheLoadTimes
COUNTER
master 列表缓存的总加载时间(以纳秒为单位),这是由缓存未命中所导致的
Master.ListingCacheMisses
COUNTER
master 列表缓存中的未命中总数
Master.ListingCacheSize
GAUGE
master 列表缓存大小
Master.LostBlockCount
GAUGE
丢失数据块计数
Master.LostFileCount
GAUGE
丢失文件的数量。这个数字是被缓存的,可能与 Master.LostBlockCount 不同步
Master.MetadataSyncActivePaths
COUNTER
所有 InodeSyncStream 实例中正在进行的路径数量
Master.MetadataSyncExecutor
EXECUTOR_SERVICE
master 元数据同步执行器线程的指标。Master.MetadataSyncExecutor.submitted 是提交给执行器的任务的计数。Master.MetadataSyncExecutor.completed 是执行器完成的任务的计数。Master.MetadataSyncExecutor.activeTaskQueue 是在执行器中每次添加新任务时计算的活动任务(运行或提交)的幂指数衰减随机容器的数量。最大值是执行过程中任何时候的活动任务的最大数量。Master.MetadataSyncExecutor.running 是执行器正在运行的任务数量。Master.MetadataSyncExecutor.idle 是提交的任务(即在执行前等待队列)闲置的时间。Master.MetadataSyncExecutor.duration 是运行提交的任务的时间。如果执行器是线程池执行器,则 Master.MetadataSyncExecutor.queueSize 是任务队列的大小
Master.MetadataSyncExecutorQueueSize
GAUGE
元数据同步线程池中排队的同步任务数,由 alluxio.master.metadata.sync.executor.pool.size 控制
Master.MetadataSyncFail
COUNTER
InodeSyncStream 失败的次数,无论是部分失败还是完全失败
Master.MetadataSyncNoChange
COUNTER
未更改 inodes 的 InodeSyncStream 完成数量
Master.MetadataSyncOpsCount
COUNTER
元数据同步操作的数量。每个同步操作对应于一个 InodeSyncStream 实例
Master.MetadataSyncPathsCancel
COUNTER
所有最终被忽略而没被处理的 InodeSyncStream 实例中未决路径的数量
Master.MetadataSyncPathsFail
COUNTER
在元数据同步所有 InodeSyncStream 实例期间失败的路径数量。
Master.MetadataSyncPathsSuccess
COUNTER
从所有 InodeSyncStream 实例同步的路径数量
Master.MetadataSyncPendingPaths
COUNTER
所有活跃 InodeSyncStream 实例中等待元数据同步的的待处理路径数量
Master.MetadataSyncPrefetchCancel
COUNTER
从元数据同步取消的预取任务数量(由于重复的预取请求)
Master.MetadataSyncPrefetchExecutor
EXECUTOR_SERVICE
关于主元数据同步预取执行线程的指标。Master.MetadataSyncPrefetchExecutor.submitted 是提交给执行器的任务的计数器。Master.MetadataSyncPrefetchExecutor.completed 是由执行器完成的任务的计数器。Master.MetadataSyncPrefetchExecutor.activeTaskQueue 是在执行器上运行或提交的活动任务的指数衰减随机容器,每次向执行器添加新任务时计算。最大值是执行期间任意时间内的最大活动任务数。Master.MetadataSyncPrefetchExecutor.running 是执行器正在运行的任务数。Master.MetadataSyncPrefetchExecutor.idle 是提交的任务(即等待队列中之前执行的时间)的空闲时间。Master.MetadataSyncPrefetchExecutor.duration 是运行提交的任务的时间。如果执行器是线程池执行器,则 Master.MetadataSyncPrefetchExecutor.queueSize 是任务队列的大小。
Master.MetadataSyncPrefetchExecutorQueueSize
GAUGE
元数据同步线程池中排队的预取任务数,由 alluxio.master.metadata.sync.ufs.prefetch.pool.size 控制
Master.MetadataSyncPrefetchFail
COUNTER
元数据同步中失败的预取工作数量
Master.MetadataSyncPrefetchOpsCount
COUNTER
由预取线程池处理的预取操作数量
Master.MetadataSyncPrefetchPaths
COUNTER
元数据同步预取任务获取的 UFS 路径总数
Master.MetadataSyncPrefetchRetries
COUNTER
元数据同步预取任务的重试获取次数
Master.MetadataSyncPrefetchSuccess
COUNTER
元数据同步预取任务的成功获取次数
Master.MetadataSyncSkipped
COUNTER
由于 Alluxio 元数据比 alluxio.user.file.metadata.sync.interval 更新而跳过的 InodeSyncStream 数量
Master.MetadataSyncSuccess
COUNTER
InodeSyncStream 成功次数
Master.MetadataSyncTimeMs
COUNTER
所有 InodeSyncStream 实例存在总时间
Master.MetadataSyncUfsMount.
COUNTER
对给定 UFS 挂载点进行 UFS sync 操作的次数
Master.MigrateJobCancel
COUNTER
MigrateJob 取消次数
Master.MigrateJobFail
COUNTER
MigrateJob 失败次数
Master.MigrateJobFileCount
COUNTER
MigrateJob 文件数
Master.MigrateJobFileSize
COUNTER
MigrateJob 文件体积之和
Master.MigrateJobSuccess
COUNTER
MigrateJob 操作成功次数
Master.MountOps
COUNTER
Mount 操作次数
Master.NewBlocksGot
COUNTER
GetNewBlock 操作成功次数
Master.PathsDeleted
COUNTER
Delete 操作成功次数
Master.PathsMounted
COUNTER
Mount 操作成功次数
Master.PathsRenamed
COUNTER
Rename 操作成功次数
Master.PathsUnmounted
COUNTER
Unmount 操作成功次数
Master.RenamePathOps
COUNTER
Rename 操作次数
Master.ReplicaMgmtActiveJobSize
GAUGE
活跃块复制/逐出任务的数。这些任务由 master 创建,以维护块副本因子。该值带有一定延迟,是估计值
Master.ReplicationLimitedFiles
COUNTER
Master.RocksBlockBackgroundErrors
GAUGE
RocksDB 块表。背景错误累积数
Master.RocksBlockBlockCacheCapacity
GAUGE
RocksDB 块表。块缓存容量
Master.RocksBlockBlockCachePinnedUsage
GAUGE
RocksDB 块表。固定条目内存体积
Master.RocksBlockBlockCacheUsage
GAUGE
RocksDB 块表。存储在块缓存中的条目的内存大小
Master.RocksBlockCompactionPending
GAUGE
RocksDB 块表。如果有至少一个压缩操作正在等待,则此指标为 1;否则,此指标为 0
Master.RocksBlockCurSizeActiveMemTable
GAUGE
RocksDB 块表。活跃 MemTable 的近似字节大小
Master.RocksBlockCurSizeAllMemTables
GAUGE
RocksDB 块表。活跃的、未刷新且不可变的,和固定住不可变的 MemTable 的以字节为单位的近似大小。固定不可变内存表是被保留在内存中的刷新内存表,用于在内存中保留写入历史记录
Master.RocksBlockEstimateNumKeys
GAUGE
RocksDB 块表。活跃和未刷新地不可变 MemTable 以及存储中总键数的估计值
Master.RocksBlockEstimatePendingCompactionBytes
GAUGE
RocksDB 块表。估计一次压缩需要在磁盘上重写的总字节数,以使所有层降到目标大小之下。换句话说,这个指标与层压缩中的写入放大率有关。因此,这个指标对层压缩以外的压缩是无效的。
Master.RocksBlockEstimateTableReadersMem
GAUGE
RocksDB inode 表。以字节为单位估计用于读取 SST 表的内存,不包括块缓存中使用的内存(e.g. 过滤器和索引块)。如果过滤器和索引不在块缓存中维护,此指标记录迭代器使用的内存以及过滤器和索引。此指标基本上反映了读取数据时块缓存外使用的内存
Master.RocksBlockEstimatedMemUsage
GAUGE
RocksDB块表。这个指标通过聚合 Master.RocksBlockBlockCacheUsage、Master.RocksBlockEstimateTableReadersMem、Master.RocksBlockCurSizeAllMemTables 和 Master.RocksBlockBlockCachePinnedUsage 的值来估计 RockDB 块表的内存使用情况。
Master.RocksBlockLiveSstFilesSize
GAUGE
RocksDB块表。属于最新 LSM 树的所有 SST 文件以字节为单位的总大小
Master.RocksBlockMemTableFlushPending
GAUGE
RocksDB 块表。如果 Memtable 刷新操作正在等待,则此指标为 1;否则为 0
Master.RocksBlockNumDeletesActiveMemTable
GAUGE
RocksDB 块表。活跃 Memtable 中的删除条目总数
Master.RocksBlockNumDeletesImmMemTables
GAUGE
RocksDB 块表。未刷新不可变 MemTable 中删除条目的总数
Master.RocksBlockNumEntriesActiveMemTable
GAUGE
RocksDB 块表。活跃 MemTable 中的条目总数
Master.RocksBlockNumEntriesImmMemTables
GAUGE
RocksDB 块表。未刷新不可变 MemTable 中的条目总数
Master.RocksBlockNumImmutableMemTable
GAUGE
RocksDB 块表。尚未刷新的不可变 MemTable 的数量
Master.RocksBlockNumLiveVersions
GAUGE
RocksDB inode 表。存活版本数。存活版本较多时,通常意味着更多 SST 文件被迭代器或未完成的压缩保留而未被删除
Master.RocksBlockNumRunningCompactions
GAUGE
RocksDB 块表。当前正在运行的压缩数量
Master.RocksBlockNumRunningFlushes
GAUGE
RocksDB 块表。当前正在运行的刷新数量。
Master.RocksBlockSizeAllMemTables
GAUGE
RocksDB 块表。所有 MemTable 的大小
Master.RocksBlockTotalSstFilesSize
GAUGE
RocksDB 块表。所有 SST 文件以字节为单位的总大小
Master.RocksInodeBackgroundErrors
GAUGE
RocksDB inode 表。后台错误累积数
Master.RocksInodeBlockCacheCapacity
GAUGE
RocksDB inode 表。 块缓存容量
Master.RocksInodeBlockCachePinnedUsage
GAUGE
RocksDB inode 表。固定键内存体积
Master.RocksInodeBlockCacheUsage
GAUGE
RocksDB inode 表。这是用来描述存储在块缓存中的条目内存大小的指标
Master.RocksInodeCompactionPending
GAUGE
RocksDB inode 表。 如果至少有一个压缩操作正在等待则该指标为 1;否则,该指标为 0
Master.RocksInodeCurSizeActiveMemTable
GAUGE
RocksDB inode 表。活跃 MemTable 以字节为单位的近似大小
Master.RocksInodeCurSizeAllMemTables
GAUGE
RocksDB inode 表。活跃和未刷新不可变 MemTable 以字节为单位的近似大小
Master.RocksInodeEstimateNumKeys
GAUGE
RocksDB inode 表。活跃和未刷新不可变 MemTable 以及存储中所有键的估计数量
Master.RocksInodeEstimatePendingCompactionBytes
GAUGE
RocksDB 块表。估计一次压缩为了将所有层降到目标大小以下需要在磁盘上重写的总字节数。换句话说,这个指标与层压缩中的写入放大率有关。因此,这个指标对层压缩以外的压缩是无效的
Master.RocksInodeEstimateTableReadersMem
GAUGE
RocksDB inode 表。估计用于读取SST表的字节数,不包括用于块缓存的内存(e.g. 过滤器和索引块)。如果过滤器和索引不在块缓存中维护,则这个指标记录了迭代器以及过滤器和索引所使用的内存。这个指标基本上反应了在块缓存之外用于读取数据的内存。
Master.RocksInodeEstimatedMemUsage
GAUGE
RocksDB 块表。这个指标通过聚合 Master.RocksInodeBlockCacheUsage、Master.RocksInodeEstimateTableReadersMem、Master.RocksInodeCurSizeAllMemTables 和 Master.RocksInodeBlockCachePinnedUsage 的值,估计了 RockDB Inode 表的内存使用情况
Master.RocksInodeLiveSstFilesSize
GAUGE
RocksDB inode 表。属于最新 LSM 树的所有 SST 文件以字节为单位的总大小
Master.RocksInodeMemTableFlushPending
GAUGE
RocksDB inode 表。如果 MemTable 刷新正在等待,则该指标为 1;否则,该指标为 0
Master.RocksInodeNumDeletesActiveMemTable
GAUGE
RocksDB inode 表。活跃 MemTable 中删除条目的总数
Master.RocksInodeNumDeletesImmMemTables
GAUGE
RocksDB inode table. 未刷新不可变 MemTable 中删除条目的总数
Master.RocksInodeNumEntriesActiveMemTable
GAUGE
RocksDB inode 表。活跃 MemTable 中的总条目数
Master.RocksInodeNumEntriesImmMemTables
GAUGE
RocksDB inode 表。未刷新不可变 MemTable 中的总条目数
Master.RocksInodeNumImmutableMemTable
GAUGE
RocksDB inode 表。尚未刷新的不可变 MemTable 的数量
Master.RocksInodeNumLiveVersions
GAUGE
RocksDB inode 表。活跃版本的数量。更多的活跃版本通常意味着被迭代器或未完成的压缩保留的不被删除的 SST 文件更多
Master.RocksInodeNumRunningCompactions
GAUGE
RocksDB inode 表。当前正在进行的压缩数量
Master.RocksInodeNumRunningFlushes
GAUGE
RocksDB inode 表。当前正在进行的刷新数量
Master.RocksInodeSizeAllMemTables
GAUGE
RocksDB inode 表。当前活跃的,为刷新不变的,以及固定不变的 MemTable 以字节为单位的近似体积。固定不变的 MemTable 是保留在内存中用于维护内存写入历史更新过的 MemTable
Master.RocksInodeTotalSstFilesSize
GAUGE
RocksDB inode 表。所有 SST 文件以字节为单位的总体积。
Master.RocksTotalEstimatedMemUsage
GAUGE
这个指标通过汇总 Master.RocksBlockEstimatedMemUs age 和 Master.RocksInodeEstimatedMemUsage 的值,给出了 RocksDB 内存使用总量
Master.RoleId
GAUGE
展示 master role id
Master.RpcQueueLength
GAUGE
master RPC 队列的长度。使用这个指标来监控 master 上的 RPC 压力
Master.RpcThreadActiveCount
GAUGE
在 master RPC 执行器线程池中正在积极执行任务的线程数量。使用这个指标来监控 master 上的 RPC 压力
Master.RpcThreadCurrentCount
GAUGE
当前 master RPC 执行器线程池中的线程数。使用这个指标来监控主服务器上的 RPC 压力
Master.SetAclOps
COUNTER
SetAcl 操作总次数
Master.SetAttributeOps
COUNTER
SetAttribute 操作总次数
Master.StartTime
GAUGE
Master.TTLBuckets
GAUGE
Master.TTLInodes
GAUGE
Master.ToRemoveBlockCount
GAUGE
要从 worker 中移除的块副本数量。如果 1 个块要从 2 个 worker 中移除,会被记为 2 个
Master.TotalPaths
GAUGE
Alluxio 命名空间中的文件和目录总数
Master.TotalRpcs
TIMER
master RPC 调用的吞吐量。这个指标表明 master 服务客户端请求的繁忙程度
Master.UfsJournalCatchupTimer
TIMER
日志追赶的定时器统计只在使用 Ufs 日志时有效。它提供了一个 standby master 赶上 master 所需时间的概要,如果 master 转换时间过长则应进行监控
Master.UfsJournalFailureRecoverTimer
TIMER
UFS 日志故障恢复的定时器统计数据
Master.UfsJournalInitialReplayTimeMs
GAUGE
启动时 UFS 日志初始回放过程的持续时间。只在使用 UFS 日志时有效。它记录了第一次日志回放的持续时间。使用这个指标来监测你的 master 启动时间是否过长
Master.UfsStatusCacheChildrenSize
COUNTER
UFS 文件元数据缓存总量。该缓存在元数据同步期间使用
Master.UfsStatusCacheSize
COUNTER
正在由元数据同步预取线程池处理的 Alluxio 路径总数
Master.UniqueBlocks
GAUGE
Alluxio 中数据块总数(不算副本)
Master.UnmountOps
COUNTER
Unmount 操作总次数
动态生成的 Master 指标:
Master.CapacityTotalTier{TIER_NAME}
Alluxio 文件系统中层 {TIER_NAME} 以字节为单位的总容量
Master.CapacityUsedTier{TIER_NAME}
Alluxio 文件系统中层 {TIER_NAME} 以字节为单位已使用的容量
Master.CapacityFreeTier{TIER_NAME}
Alluxio 文件系统中层 {TIER_NAME} 以字节为单位未使用的容量
Master.UfsSessionCount-Ufs:{UFS_ADDRESS}
当前打开并连接到给定 {UFS_ADDRESS} 的 UFS 会话数
Master.{UFS_RPC_NAME}.UFS:{UFS_ADDRESS}.UFS_TYPE:{UFS_TYPE}.User:{USER}
当前 master 完成的 UFS RPC 操作细节
Master.PerUfsOp{UFS_RPC_NAME}.UFS:{UFS_ADDRESS}
当前主 master 在 UFS {UFS_ADDRESS} 上运行的 UFS 操作 {UFS_RPC_NAME} 的总数
Master.{LEADING_MASTER_RPC_NAME}
主 master 上暴露的 RPC 调用的持续时间统计信息
Worker 指标
默认 worker 指标:
Worker.ActiveClients
COUNTER
正在活跃地读取或写入此 worker 的客户端数量
Worker.ActiveRpcReadCount
COUNTER
此 worker 管理的读 RPC 数量
Worker.ActiveRpcWriteCount
COUNTER
此 worker 管理的写 RPC 数量
Worker.BlockReaderCompleteTaskCount
GAUGE
已经完成执行的读任务的近似值
Worker.BlockReaderThreadActiveCount
GAUGE
reader 线程池中正在活跃执行任务的读线程数量的近似值
Worker.BlockReaderThreadCurrentCount
GAUGE
此 reader 线程池中的读线程数
Worker.BlockReaderThreadMaxCount
GAUGE
reader 线程池中读线程允许的最大数量
Worker.BlockRemoverBlocksRemovedCount
COUNTER
此 worker 中被 asynchronous block remover 成功移除的块的总数量
Worker.BlockRemoverRemovingBlocksSize
GAUGE
asynchronous block remover 正在从此 worker 移除的块大小
Worker.BlockRemoverTryRemoveBlocksSize
GAUGE
asynchronous block remover 正要从此 worker 移除的块大小
Worker.BlockRemoverTryRemoveCount
COUNTER
asynchronous block remover 尝试从此 worker 移除的块大小
Worker.BlockSerializedCompleteTaskCount
GAUGE
完成执行的块序列化任务完成总量近似值
Worker.BlockSerializedThreadActiveCount
GAUGE
serialized 线程池中正在活跃执行任务的 block serialized 线程近似数量
Worker.BlockSerializedThreadCurrentCount
GAUGE
此 serialized 线程池中 block serialized 线程数量
Worker.BlockSerializedThreadMaxCount
GAUGE
serialized 线程池中 block serialized 线程允许的最大数量
Worker.BlockWriterCompleteTaskCount
GAUGE
已经完成执行的 block serialized 任务的近似值
Worker.BlockWriterThreadActiveCount
GAUGE
writer 线程池中正在活跃执行任务的写线程数量的近似值
Worker.BlockWriterThreadCurrentCount
GAUGE
此 writer 线程池中的写线程数
Worker.BlockWriterThreadMaxCount
GAUGE
writer 线程池中写线程允许的最大数量
Worker.BlocksAccessed
COUNTER
此 worker 中数据块被访问的总次数
Worker.BlocksCached
GAUGE
一个 Alluxio worker 中被用于缓存数据的块总数
Worker.BlocksCancelled
COUNTER
此 worker 中废弃的临时块总量
Worker.BlocksDeleted
COUNTER
此 worker 中被外部请求删除的块总量
Worker.BlocksEvicted
COUNTER
此 worker 中被驱逐的块总量
Worker.BlocksEvictionRate
METER
此 worker 的块驱逐率
Worker.BlocksLost
COUNTER
此 worker 丢失块总量
Worker.BlocksPromoted
COUNTER
此 worker 中,任何一个块被移到新层的总次数
Worker.BlocksReadLocal
COUNTER
通过此 worker 本地读的数据块总数
Worker.BlocksReadRemote
COUNTER
通过此 worker 远程读的数据块总数
Worker.BlocksReadUfs
COUNTER
通过此 worker 从 UFS 读取的数据块总数
Worker.BytesReadDirect
COUNTER
此 worker 中没有外部 RPC 参与的总字节数。数据存在于 worker 存储中或者由此 worker 从底层 UFS 获取。此指标记录了 worker 内部调用读取的数据(e.g. 嵌入在此 worker 中的客户端)
Worker.BytesReadDirectThroughput
METER
此 worker 中没有涉及外部 RPC 的字节读取吞吐量。数据存在于 worker 存储中或由该 worker 从底层 UFS 中获取。这记录了 worker 内部调用(e.g. 位于此 worker 中的客户端)读取的数据
Worker.BytesReadDomain
COUNTER
此 worker 通过域套接字读取的总字节数
Worker.BytesReadDomainThroughput
METER
此 worker 通过域套接字读取字节的吞吐量
Worker.BytesReadPerUfs
COUNTER
此 worker 从特定 UFS 读取的总字节数
Worker.BytesReadRemote
COUNTER
通过网络(RPC)远程读取此 worker 的字节总数。数据存在于 worker 存储中或由该 worker 从底层 UFS 获取。这不包括短路本地读取和域套接字读取
Worker.BytesReadRemoteThroughput
METER
这是一项衡量通过网络(RPC)从此 worker 读取的字节数的吞吐量的指标。数据存在于 worker 存储中,或者由该 worker 从底层 UFS 中获取。这不包括短路本地读取和域套接字读取
Worker.BytesReadUfsThroughput
METER
由此 worker 从 UFS 读取字节的吞吐量
Worker.BytesWrittenDirect
COUNTER
不涉及外部 RPC写入此 worker 的总字节数。数据写入 worker 存储或由此 worker 写入下层 UFS。这记录了 worker 内部调用(e.g. 嵌入在 此 worker 中的客户端)写入的数据
Worker.BytesWrittenDirectThroughput
METER
不涉及外部 RPC 写入此 worker 的字节吞吐量。数据写入 worker 存储或由此 worker 写入下层 UFS。这记录了 worker 内部调用(e.g. 嵌入在此 worker 中的客户端)写入的数据
Worker.BytesWrittenDomain
COUNTER
通过域套接字写入此 worker 的总字节数
Worker.BytesWrittenDomainThroughput
METER
通过域套接字写入此 worker 的吞吐量
Worker.BytesWrittenPerUfs
COUNTER
此 worker 向特定 UFS 写入的总字节数
Worker.BytesWrittenRemote
COUNTER
通过网络(RPC)写入此 worker 的总字节数。数据写入 worker 存储或由此 worker 写入下层 UFS。这不包括短路本地写入和域套接字写入
Worker.BytesWrittenRemoteThroughput
METER
通过网络(RPC)写入此 worker 的字节写入吞吐量。数据写入 worker 存储或由此 worker 写入下层 UFS。这不包括短路本地写入和域套接字写入
Worker.BytesWrittenUfsThroughput
METER
此 worker 向所有 Alluxio UFS 写入字节的吞吐量
Worker.CacheBlocksSize
COUNTER
通过缓存请求缓存的字节量
Worker.CacheFailedBlocks
COUNTER
此 worker 缓存块失败数量
Worker.CacheManagerCompleteTaskCount
GAUGE
已经完成执行的块缓存任务的近似量
Worker.CacheManagerThreadActiveCount
GAUGE
cache manager 线程池中正在活跃执行任务的块缓存线程数量的近似值
Worker.CacheManagerThreadCurrentCount
GAUGE
此 cache manager 线程池中的块缓存线程数
Worker.CacheManagerThreadMaxCount
GAUGE
cache manager 线程池中块缓存线程允许的最大数量
Worker.CacheManagerThreadQueueWaitingTaskCount
GAUGE
此 worker 中 cache manager 线程池中工作队列中等待的任务数,受 alluxio.worker.network.async.cache.manager.queue.max 的限制。
Worker.CacheRemoteBlocks
COUNTER
此 worker 需要从远程源缓存的块的总数
Worker.CacheRequests
COUNTER
此 worker 收到的缓存请求总数
Worker.CacheRequestsAsync
COUNTER
此 worker 收到的异步缓存请求的总数
Worker.CacheRequestsSync
COUNTER
此 worker 收到的同步缓存请求的总数
Worker.CacheSucceededBlocks
COUNTER
此 worker 中的缓存成功的块的总数
Worker.CacheUfsBlocks
COUNTER
此 worker 中需要从本地源缓存的块的总数
Worker.CapacityFree
GAUGE
此 Alluxio worker 的所有层级上的总空闲字节
Worker.CapacityTotal
GAUGE
此 Alluxio worker 在所有层次上以字节为单位的总容量
Worker.CapacityUsed
GAUGE
此 Alluxio worker 所有层级上使用的总字节数
Worker.MasterRegistrationSuccessCount
COUNTER
Worker.RpcQueueLength
GAUGE
worker RPC 队列的长度。用此指标监视 worker 的 RPC 压力
Worker.RpcThreadActiveCount
GAUGE
此 worker RPC 执行程序线程池中正在执行任务的线程数。用此指标监视 worker 的 RPC 压力
Worker.RpcThreadCurrentCount
GAUGE
此 worker RPC 执行器线程池中的线程数。用此指标监视 worker 的 RPC 压力
动态的 worker 指标:
Worker.UfsSessionCount-Ufs:{UFS_ADDRESS}
当前打开并连接到给定 {UFS_ADDRESS} 的 UFS 会话数
Worker.{RPC_NAME}
worker 上暴露的 RPC 调用的持续时间统计信息
Client 指标
每个客户端度量将使用其本地主机名或配置的 alluxio.user.app.id
进行记录。 如果配置了 alluxio.user.app.id
,多个客户端可以组合成一个逻辑应用。
Client.BlockMasterClientCount
COUNTER
BlockMasterClientPool 中实例数量
Client.BlockReadChunkRemote
TIMER
该客户端从远程 Alluxio worker 读取数据chunk数量。当 alluxio.user.block.read.metrics.enabled 设置为 true 时,才会记录此指标
Client.BlockWorkerClientCount
COUNTER
BlockWorkerClientPool 中实例数量
Client.BusyExceptionCount
COUNTER
观察到的 BusyException 数量
Client.BytesReadLocal
COUNTER
该客户端短路读取的总字节数
Client.BytesReadLocalThroughput
METER
该客户端短路读取的字节吞吐量
Client.BytesWrittenLocal
COUNTER
该客户端短路写入 Alluxio 缓存的字节总数
Client.BytesWrittenLocalThroughput
METER
该客户端短路写入 Alluxio 缓存的字节吞吐量
Client.BytesWrittenUfs
COUNTER
该客户端写入 UFS 的字节数
Client.CacheBytesDiscarded
METER
该客户端缓存丢弃的总字节数
Client.CacheBytesEvicted
METER
该客户端缓存驱逐的总字节数
Client.CacheBytesReadCache
METER
从该客户端缓存读的总字节数
Client.CacheBytesReadExternal
METER
由于该客户端缓存未命中从 Alluxio 集群读取的总字节数。chunk read 可能导致这个数字小于 Client.CacheBytesReadExternal
Client.CacheBytesReadInStreamBuffer
METER
从该客户端缓存的输入流缓冲区中读取的总字节数
Client.CacheBytesRequestedExternal
METER
引起缓存未命中的用户读请求总字节数。这个数字可能会比 Client.CacheBytesReadExternal 小,因为它可能被分成多个块读取
Client.CacheBytesWrittenCache
METER
向该客户端缓存写入的总字节数
Client.CacheCleanErrors
COUNTER
该客户端为了初始化新缓存时清理已存在缓存路径的失败总数
Client.CacheCleanupGetErrors
COUNTER
该客户端清理失败内存读取失败总数
Client.CacheCleanupPutErrors
COUNTER
该客户端清理失败内存写入失败总数
Client.CacheCreateErrors
COUNTER
在该客户端缓存中创建缓存的失败总数
Client.CacheDeleteErrors
COUNTER
在该客户端缓存中删除缓存数据的失败总数
Client.CacheDeleteFromStoreErrors
COUNTER
该客户端删除页的失败总数
Client.CacheDeleteNonExistingPageErrors
COUNTER
该客户端由于页缺失导致删除页失败的总数
Client.CacheDeleteNotReadyErrors
COUNTER
该客户端由于缓存未就绪删除页失败的总数
Client.CacheGetErrors
COUNTER
从该客户端缓存中获取缓存数据失败总数
Client.CacheGetNotReadyErrors
COUNTER
该客户端由于缓存未就绪获取页失败的总数
Client.CacheGetStoreReadErrors
COUNTER
该客户端由于从页存储读取失败导致客户端缓存中获取缓存数据失败的次数
Client.CacheHitRate
GAUGE
缓存命中率:(# 从缓存读取的字节数)/(# 请求的字节数)
Client.CachePageReadCacheTimeNanos
METER
该客户端缓存命中时读取页面时间(ns)
Client.CachePageReadExternalTimeNanos
METER
该客户端当缓存未命中时,从外部源读取数据所花费时间(ns)
Client.CachePages
COUNTER
该客户端缓存中的总页数
Client.CachePagesDiscarded
METER
该客户端恢复页存储时丢失页的总数
Client.CachePagesEvicted
METER
从该客户端缓存中驱逐页的总数
Client.CachePutAsyncRejectionErrors
COUNTER
该客户端缓存中放置缓存数据时,由于异步写队列注入失败而导致的失败次数
Client.CachePutBenignRacingErrors
COUNTER
该客户端由于驱逐竞争而导致的缓存页添加失败的次数。这个错误是良性的
Client.CachePutErrors
COUNTER
向该客户端缓存中放置缓存数据的失败次数
Client.CachePutEvictionErrors
COUNTER
该客户端由于驱逐失败而导致的缓存页添加失败的次数。这个错误是良性的
Client.CachePutInsufficientSpaceErrors
COUNTER
该客户端由于在驱逐后空间不足导致的将缓存数据放入客户端缓存时的失败次数
Client.CachePutNotReadyErrors
COUNTER
该客户端由于缓存不能准备好添加页,添加页失败的次数
Client.CachePutStoreDeleteErrors
COUNTER
该客户端在页存储中删除失败导致的缓存数据放置失败的次数
Client.CachePutStoreWriteErrors
COUNTER
该客户端由于向页面存储写入失败而导致的将缓存数据放入客户端缓存中失败的次数
Client.CachePutStoreWriteNoSpaceErrors
COUNTER
该客户端未达到缓存容量上限但磁盘已满时将缓存数据放入客户端缓存时失败的次数。如果低估写入数据的存储开销比例,这种情况就可能会发生
Client.CacheShadowCacheBytes
COUNTER
该客户端 shadow cache 的字节数
Client.CacheShadowCacheBytesHit
COUNTER
该客户端 shadow cache 命中的字节数
Client.CacheShadowCacheBytesRead
COUNTER
这个从客户端 shadow cache 读取的字节数
Client.CacheShadowCacheFalsePositiveRatio
COUNTER
该客户端正在使用的工作集布隆过滤器犯错的概率。该值为 0-100。如果太高,则需要分配更多空间
Client.CacheShadowCachePages
COUNTER
该客户端 shadow cache 中页的数量
Client.CacheShadowCachePagesHit
COUNTER
该客户端 shadow cache 中页的命中次数
Client.CacheShadowCachePagesRead
COUNTER
从该客户端 shadow cache 中读取页的数量
Client.CacheSpaceAvailable
GAUGE
该客户端缓存中可用字节数
Client.CacheSpaceUsed
GAUGE
该客户端缓存使用字节数
Client.CacheSpaceUsedCount
COUNTER
该客户端缓存用作计数器的字节数量
Client.CacheState
COUNTER
缓存状态:0(不在使用中),1(只读),2(读写)
Client.CacheStoreDeleteTimeout
COUNTER
该客户端从页存储中删除页超时次数
Client.CacheStoreGetTimeout
COUNTER
该客户端从页存储中读取页超时次数
Client.CacheStorePutTimeout
COUNTER
该客户端向页存储中写入新页超时次数
Client.CacheStoreThreadsRejected
COUNTER
该客户端向线程池提交任务时拒绝 I/O 线程的次数,可能是由于本地文件系统无响应。
Client.CloseAlluxioOutStreamLatency
TIMER
Client.CloseUFSOutStreamLatency
TIMER
Client.DefaultHiveClientCount
COUNTER
DefaultHiveClientPool 中实例数量
Client.FileSystemMasterClientCount
COUNTER
FileSystemMasterClientPool 中实例数量
Client.MetadataCacheSize
GAUGE
该客户端被缓存的文件和目录的元数据总数。只在文件系统为 alluxio.client.file.MetadataCachingBaseFileSystem 时有效
Fuse 指标
Fuse 是长期运行的 Alluxio 客户端。 根据启动方式,Fuse 指标将显示为:
当文件系统客户端在独立的 AlluxioFuse 进程中启动时,显示为客户端指标。
当 Fuse 客户端嵌入在 AlluxioWorker 进程中时,显示为 worker 指标。
Fuse metrics includes:
Fuse.CachedPathCount
GAUGE
缓存的 Alluxio 路径映射的总数。这个值小于或等于 alluxio.fuse.cached.paths.max
Fuse.ReadWriteFileCount
GAUGE
当前被打开的读写文件数量
Fuse.TotalCalls
TIMER
JNI FUSE 操作调用的吞吐量。此指标表明 Alluxio Fuse 应用处理请求的繁忙程度
Fuse 读/写文件数量可用作 Fuse 应用程序压力的指标。 如果在短时间内发生大量并发读/写操作,则每个读/写操作可能需要更长的时间来完成。
当用户或应用程序在 Fuse 挂载点下运行文件系统命令时,该命令将由操作系统处理和转换,并触发在 AlluxioFuse 中暴露的相关 Fuse 操作。每个操作被调用的次数以及每次调用的持续时间将使用动态指标名称 Fuse.<FUSE_OPERATION_NAME>
记录。
重要的 Fuse 指标包括:
Fuse.readdir
列出目录的持续时间指标
Fuse.getattr
获取文件元数据的持续时间指标
Fuse.open
打开文件进行读或覆写的持续时间指标
Fuse.read
读取文件的一部分的持续时间指标
Fuse.create
为了写入创建文件的持续时间指标
Fuse.write
写入文件的持续时间指标
Fuse.release
在读取或写入后关闭文件的持续时间指标。请注意,释放是异步的,因此 FUSE 线程不会等待释放完成
Fuse.mkdir
创建目录的持续时间指标
Fuse.unlink
删除文件或目录的持续时间指标
Fuse.rename
重命名文件或目录的持续时间指标
Fuse.chmod
更改文件或目录模式的持续时间指标
Fuse.chown
修改文件或目录的用户和/或组所有权的持续时间指标
Fuse相关的指标包括:
Client.TotalRPCClients
显示用于连接到或可连接到 master 或 worker 进行操作的 RPC 客户端的总数。带有
Direct
关键字的 worker 指标。当 Fuse 嵌入到 worker 进程中时,它可以通过 worker 内部 API 从该 worker 读取/写入。 相关指标以Direct
结尾。例如,Worker.BytesReadDirect
显示该 worker 为其嵌入的 Fuse 客户端提供读取的字节数。如果配置了
alluxio.user.block.read.metrics.enabled=true
,则会记录Client.BlockReadChunkRemote
。 该指标显示通过 gRPC 从远程 worker 读取数据的持续时间统计。
Client.TotalRPCClients
和 Fuse.TotalCalls
指标是 Fuse 应用程序当前负载的优秀指标。 如果在 Alluxio Fuse 上运行应用程序(e.g. Tensorflow),但这两个指标值比之前低得多,则训练作业可能会卡在 Alluxio 上。
普通进程指标
在每个实例(Master、Worker 或 Client)上收集的指标。
JVM Attributes
name
JVM 名称
uptime
JVM 的运行时间
vendor
当前的 JVM 供应商
GC 统计
PS-MarkSweep.count
标记和清除 old gen 的总数
PS-MarkSweep.time
标记和清除 old gen 的总时间
PS-Scavenge.count
清除 young gen 总数
PS-Scavenge.time
清除 young gen 总时间
内存使用情况
Alluxio 提供整体和详细的内存使用信息。 每个进程中代码缓存、压缩类空间、元数据空间、PS Eden 空间、PS old gen 以及 PS survivor 空间的详细内存使用信息都会被收集。
以下是内存使用指标的子集:
total.committed
保证可供 JVM 使用的以字节为单位的内存数量
total.init
可供 JVM 使用的以字节为单位的内存数量
total.max
以字节为单位的 JVM 可用的最大内存量
total.used
以字节为单位当前使用的内存大小
heap.committed
在堆上保证可用的内存大小
heap.init
初始化时堆上可用的内存量
heap.max
在堆上可用的最大内存量
heap.usage
堆上当前正在使用的以 GB 为单位的内存量
heap.used
堆上当前已经使用过的以 GB 为单位的内存量
pools.Code-Cache.used
内存池中用于编译和存储本地代码的内存总量
pools.Compressed-Class-Space.used
内存池中用于类元数据的内存总量
pools.PS-Eden-Space.used
内存池中用于大多数对象初始分配的内存总量
pools.PS-Survivor-Space.used
从包含在 Eden space 的垃圾回收中幸存下来的对象的池中使用的内存总量
类加载统计
loaded
加载的类总数
unloaded
未加载的类总量
线程统计
count
当前存活线程数
daemon.count
当前守护线程的数量
peak.count
存活线程数峰值
total_started.count
启动线程总数
deadlock.count
死锁线程总数
deadlock
与每个线程有关的死锁的调用栈
new.count
有新状态的线程数
blocked.count
阻塞态线程数
runnable.count
可运行状态线程数
terminated.count
终结态线程数
timed_waiting.count
定时等待状态的线程数量
Last updated