`
cloudeagle_bupt
  • 浏览: 538543 次
文章分类
社区版块
存档分类
最新评论

hadoop hbase metric名全解释

 
阅读更多

转自: http://blog.csdn.net/mrtitan/article/details/8984980

和同事花了1天时间把hadoop和hbase的所有metric全部解释了一遍,记录一下:


系统参数监控metrics

load_one 每分钟的系统平均负载

load_fifteen 每15分钟的系统平均负载

load_five 每5分钟的系统平均负载

boottime 系统启动时间,精确到秒

bytes_in 网络接收速度,单位bytes/sec

bytes_out 网络发送速度,单位bytes/sec

cpu_aidle 启动的空闲CPU百分比

cpu_idle 空闲CPU百分比

cpu_nice 用户进程空间内改变过优先级的进程占用CPU百分比

cpu_num CPU线程总数

cpu_report CPU使用情况汇总报告

cpu_speed CPU速度(MHz)

cpu_system 内核空间占用CPU百分比

cpu_user 用户空间占用CPU百分比

cpu_wio CPU空闲时的最大I/O请求

proc_total 进程总数

swap_free 空闲交换分区空闲大小

swap_total 空闲交换分区大小(KBs显示)

disk_free 剩余磁盘空间

disk_total 磁盘总大小

ip_address ip地址列表

last_reported 最后一次报告时间

load_report 系统负载汇总报告

location 定位信息(经纬度)

machine_type 系统版本(X86或64)

mem_buffers 内核缓存的内存总量

mem_cached 缓存内存大小

mem_free 空闲内存大小

mem_report 内存汇总报告

mem_shared 共享内存大小

mem_total 物理内存总量(KBs显示)

os_name 操作系统名称

os_release 操作系统版本

pkts_in 每秒进来的包数

pkts_out 每秒出去的包数

proc_run 运行的进程总数

packet_report 包汇总报告

network_report 网络汇总报告

namenode监控metrics

dfs.namenode.SafeModeTime safemode时间

dfs.namenode.AddBlockOps 写入block次数

dfs.namenode.BlockReportAvgTime block report的平均时间次数

dfs.namenode.BlockReportNumOps block report的次数

dfs.namenode.CreateFileOps 创建文件次数

dfs.namenode.DeleteFileOps 删除文件次数

dfs.namenode.FileInfoOps 查看文件info次数

dfs.namenode.FilesCreated 已创建的文件个数

dfs.namenode.FilesDeleted 已删除的文件个数

dfs.namenode.FilesInGetListingOps getlist操作次数

dfs.namenode.FilesRenamed 重命名文件个数

dfs.namenode.FsImageLoadTime fsimage加载时间

dfs.namenode.GetAdditionalDatanodeOps GetAdditionalDatanode操作次数

dfs.namenode.GetBlockLocations 获取block位置操作次数

dfs.namenode.GetListingOps getListing操作次数

dfs.namenode.SyncsAvgTime 将操作同步为editlog的平均时间

dfs.namenode.SyncsNumOps 将操作同步为editlog的次数

dfs.namenode.TransactionsAvgTime transcation的平均时间

dfs.namenode.TransactionsBatchedInSync transcation在flush时发现已经被sync的情况的次数

dfs.namenode.TransactionsNumOps transcation的个数

datanode参数监控metrics

dfs.datanode.BlockReportsAvgTime 向namenode汇报block的平均时间

dfs.datanode.BlockReportsNumOps 向namenode汇报block的次数

dfs.datanode.BlocksRead 从硬盘读块的次数

dfs.datanode.BlocksRemoved 删除块的个数

dfs.datanode.BlocksReplicated 备份块操作的个数

dfs.datanode.BlocksVerified 验证块的次数

dfs.datanode.BlocksWritten 写入块的个数

dfs.datanode.BytesRead 读出总字节

dfs.datanode.BytesWritten 写入总字节

dfs.datanode.CopyBlockOpAvgTime 复制块的平均时间

dfs.datanode.CopyBlockOpNumOps 复制块的次数

dfs.datanode.HeartbeatsAvgTime 向namenode汇报的平均时间

dfs.datanode.HeartbeatsNumOps 向namenode汇报的次数

dfs.datanode.ReadBlockOpAvgTime 读数据块的平均时间

dfs.datanode.ReadBlockOpNumOps 读数据块的次数

dfs.datanode.ReadsFromLocalClient 本地读取的次数

dfs.datanode.ReadsFromRemoteClient 远程读取的次数

dfs.datanode.WriteBlockOpAvgTime 写数据块的平均时间

dfs.datanode.WriteBlockOpNumOps 写数据块的次数

dfs.datanode.WritesFromLocalClient 写本地的次数

dfs.datanode.WritesFromRemoteClient 写远程的次数

dfs.datanode.PacketAckRoundTripTimeNanosAvgTime 包确认平均时间

dfs.datanode.PacketAckRoundTripTimeNanosNumOps 包确认次数

dfs.datanode.FlushNanosAvgTime 文件系统flush平均时间

dfs.datanode.FlushNanosNumOps 文件系统flush次数

dfs.datanode.ReplaceBlockOpAvgTime 块替换平均时间

dfs.datanode.ReplaceBlockOpNumOps 块替换次数

dfs.datanode.SendDataPacketBlockedOnNetworkNanosAvgTime 网络上发送块平均时间

dfs.datanode.SendDataPacketBlockedOnNetworkNanosNumOps 网络上发生块次数

dfs.datanode.SendDataPacketTransferNanosAvgTime 网络上发送包平均时间

dfs.datanode.SendDataPacketTransferNanosNumOps 网络上发送包个数

HDFS文件系统metric

dfs.FSNamesystem.BlockCapacity block的总容量

dfs.FSNamesystem.BlocksTotal block的当前容量

dfs.FSNamesystem.CapacityRemainingGB HDFS文件系统剩余的容量

dfs.FSNamesystem.CapacityTotalGB HDFS文件系统总体容量

dfs.FSNamesystem.CapacityUsedGB HDFS文件系统已使用的容量

dfs.FSNamesystem.CorruptBlocks 已损坏的block数量

dfs.FSNamesystem.ExcessBlocks 多余的block

dfs.FSNamesystem.ExpiredHeartbeats 超时的心跳

dfs.FSNamesystem.FilesTotal 文件总数

dfs.FSNamesystem.LastCheckpointTime 最近一次做checkpoint的时间

dfs.FSNamesystem.LastWrittenTransactionId 最近一次写入的transactionid

dfs.FSNamesystem.MillisSinceLastLoadedEdits 距离上一次加载edit的时间

dfs.FSNamesystem.MissingBlocks 丢失的block数量

dfs.FSNamesystem.TotalFiles 文件总个数

dfs.FSNamesystem.UnderReplicatedBlocks 副本个数不够的block

dfs.FSNamesystem.PendingDataNodeMessageCount datanode的请求被queue在standby namenode的个数

dfs.FSNamesystem.PendingDeletionBlocks 未被验证的block个数

dfs.FSNamesystem.PendingReplicationBlocks 等待被备份的block个数

dfs.FSNamesystem.PostponedMisreplicatedBlocks 被推迟处理的错误备份的block个数

dfs.FSNamesystem.ScheduledReplicationBlocks 排定要备份的block个数

dfs.FSNamesystem.TotalLoad namenode的Xceiver个数

dfs.FSNamesystem.TransactionsSinceLastCheckpoint 从上次checkpoint起到现在新的transcation的个数

dfs.FSNamesystem.TransactionsSinceLastLogRoll 从上次roll editlog起到现在新的transcation的个数

hbase.master metrics

hbase.master.cluster_requests 当前机器整体request的个数

hbase.master.splitSize_avg_time splitlog的大小

hbase.master.splitSize_num_ops splitlog次数

hbase.master.splitTime_avg_time splitlog的时间

hbase.master.splitTime_num_ops splitlog的次数

hbase参数监控metrics

hbase.regionserver.blockCacheCount RegionServer中缓存到blockcache中block的个数。

hbase.regionserver.blockCacheEvictedCount BlockCache中被换出的Block的个数。

hbase.regionserver.blockCacheFree 返回block cache中空闲的内存大小。

hbase.regionserver.blockCacheHitCachingRatio HitCache表示因为读取不到而cacheblock的行为,blockCacheHitCachingRatio表示发生该行为的比率

hbase.regionserver.blockCacheHitCount blockCache命中次数

hbase.regionserver.blockCacheHitRatio blockCache命中比例

hbase.regionserver.blockCacheMissCount blockCache非命中比例

hbase.regionserver.blockCacheSize blockCache大小

hbase.regionserver.compactionQueueSize compaction Queue的大小

hbase.regionserver.compactionSize_avg_time 平均执行一次Compaction的数据大小

hbase.regionserver.compactionSize_num_ops 执行compaction的次数

hbase.regionserver.compactionTime_avg_time 平均执行一次Compaction的时间

hbase.regionserver.compactionTime_num_ops 执行compaction的次数

hbase.regionserver.deleteRequestLatency_75th_percentile 75%的删除请求延时的概率统计

hbase.regionserver.deleteRequestLatency_95th_percentile 95%的删除请求延时的概率统计

hbase.regionserver.deleteRequestLatency_99th_percentile 99%的删除请求延时的概率统计

hbase.regionserver.deleteRequestLatency_max 删除请求的最大值

hbase.regionserver.deleteRequestLatency_mean 删除请求的平均值

hbase.regionserver.deleteRequestLatency_median 删除请求的中位值

hbase.regionserver.deleteRequestLatency_min 删除请求的最小值

hbase.regionserver.deleteRequestLatency_num_ops 删除请求的个数

hbase.regionserver.deleteRequestLatency_std_dev 删除请求的标准差

hbase.regionserver.flushQueueSize flush Queue的大小

hbase.regionserver.flushSize_avg_time 平均执行一次flush的数据大小

hbase.regionserver.flushSize_num_ops 执行flush的次数

hbase.regionserver.flushTime_avg_time 平均执行一次flush的时间

hbase.regionserver.flushTime_num_ops 执行flush的次数

hbase.regionserver.fsReadLatencyHistogram_75th_percentile 75%的读HLog时间的概率统计

hbase.regionserver.fsReadLatencyHistogram_95th_percentile 95%的读HLog时间的概率统计

hbase.regionserver.fsReadLatencyHistogram_99th_percentile 99%的读HLog时间的概率统计

hbase.regionserver.fsReadLatencyHistogram_max 读HLog时间的最大值

hbase.regionserver.fsReadLatencyHistogram_mean 读HLog时间的平均值

hbase.regionserver.fsReadLatencyHistogram_median 读HLog时间的中位值

hbase.regionserver.fsReadLatencyHistogram_min 读HLog时间的最小值

hbase.regionserver.fsReadLatencyHistogram_num_ops 读HLog的次数

hbase.regionserver.fsReadLatencyHistogram_std_dev 读HLog时间的标准差

hbase.regionserver.fsReadLatency_avg_time 读HLog时间的平均时间

hbase.regionserver.fsReadLatency_num_ops 读HLog时间的次数

hbase.regionserver.fsSyncLatency_avg_time sync HLog的平均时间

hbase.regionserver.fsSyncLatency_num_ops sync HLog的次数

hbase.regionserver.fsWriteLatencyHistogram_75th_percentile 75%的写HLog的概率统计

hbase.regionserver.fsWriteLatencyHistogram_95th_percentile 95%的写HLog的概率统计

hbase.regionserver.fsWriteLatencyHistogram_99th_percentile 99%的写HLog的概率统计

hbase.regionserver.fsWriteLatencyHistogram_max 写HLog时间的最大值

hbase.regionserver.fsWriteLatencyHistogram_mean 写HLog时间的最大值

hbase.regionserver.fsWriteLatencyHistogram_median 写HLog时间的最大值

hbase.regionserver.fsWriteLatencyHistogram_min 写HLog时间的最大值

hbase.regionserver.fsWriteLatencyHistogram_num_ops 写HLog的次数

hbase.regionserver.fsWriteLatencyHistogram_std_dev 写HLog时间的标准差

hbase.regionserver.fsWriteLatency_avg_time 写HLog操作的平均Latency

hbase.regionserver.fsWriteLatency_num_ops 写HLog操作的次数

hbase.regionserver.getRequestLatency_75th_percentile 75%的get请求时间的概率统计

hbase.regionserver.getRequestLatency_95th_percentile 95%的get请求时间的概率统计

hbase.regionserver.getRequestLatency_99th_percentile 99%的get请求时间的概率统计

hbase.regionserver.getRequestLatency_max get请求时间的最大值

hbase.regionserver.getRequestLatency_mean get请求时间的平均值

hbase.regionserver.getRequestLatency_median get请求时间的中位值

hbase.regionserver.getRequestLatency_min get请求时间的最小值

hbase.regionserver.getRequestLatency_num_ops get请求的次数

hbase.regionserver.getRequestLatency_std_dev get请求时间的标准差

hbase.regionserver.hdfsBlocksLocalityIndex 统计RegionServer所在机器的数据本地化的概率

hbase.regionserver.hlogFileCount hlog file的个数

hbase.regionserver.mbInMemoryWithoutWAL RegionServer中不写WAL的Put操作的数据在Memstore占用的空间

hbase.regionserver.memstoreSizeMB RegionServer中所有HRegion中的memstore大小的总和

hbase.regionserver.numPutsWithoutWAL RegionServer中不写WAL(Write-Ahead-Log)的Put操作的个数

hbase.regionserver.putRequestLatency_75th_percentile 75%的put请求时间的概率统计

hbase.regionserver.putRequestLatency_95th_percentile 95%的put请求时间的概率统计

hbase.regionserver.putRequestLatency_99th_percentile 99%的put请求时间的概率统计

hbase.regionserver.putRequestLatency_max put请求时间的最大值

hbase.regionserver.putRequestLatency_mean put请求时间的平均值

hbase.regionserver.putRequestLatency_median put请求时间的中位值

hbase.regionserver.putRequestLatency_min put请求时间的最小值

hbase.regionserver.putRequestLatency_num_ops put请求的次数

hbase.regionserver.putRequestLatency_std_dev put请求时间的标准差

hbase.regionserver.readRequestsCount 读请求的数量:readRequestCount与客户端读取数据的个数不等价,而且大部分情况下readRequestCount 远小于客户端读取数据个数,因为next(1000)只算一次请求

hbase.regionserver.regionSplitFailureCount region split失败的次数

hbase.regionserver.regionSplitSuccessCount region split成功的次数

hbase.regionserver.regions region的个数

hbase.regionserver.requests 请求的数量

hbase.regionserver.rootIndexSizeKB storefileIndex的大小,和storefileIndexSizeMB相同

hbase.regionserver.storefileIndexSizeMB storefileIndex的大小

hbase.regionserver.storefiles RegionServer中所有的Storefiles的个数

hbase.regionserver.stores RegionServer包含的Store的个数

hbase.regionserver.totalStaticBloomSizeKB 所有Store上的Bloom Filter大小的总和。

hbase.regionserver.totalStaticIndexSizeKB HRegionServer上每个HFile文件的IndexSize的大小,这是指未压缩的,不带有其它信息的所有HFileBlockIndex信息的总和 。

hbase.regionserver.writeRequestsCount 写请求的数量:writeRequestCount与客户端写操作个数不完全等价,批量写只记做一次请求,大部分情况下writeRequestCount远小于客户端写操作的个数(尤其批量写频繁的情况下)。

map/reduce参数监控metrics

mapred.ShuffleMetrics.ShuffleConnections shuffle的连接数

mapred.ShuffleMetrics.ShuffleOutputBytes shuffle输出数据大小

mapred.ShuffleMetrics.ShuffleOutputsFailed shuffle失败的次数

mapred.ShuffleMetrics.ShuffleOutputsOK shuffle成功的次数

yarn(map/reduce v2)参数监控metrics

yarn.NodeManagerMetrics.AllocatedContainers 当前分配的container个数

yarn.NodeManagerMetrics.AllocatedGB 当前分配的container内存

yarn.NodeManagerMetrics.AvailableGB 当前free的内存

yarn.NodeManagerMetrics.ContainersCompleted 完成状态的container个数

yarn.NodeManagerMetrics.ContainersIniting 初始化状态的container个数

yarn.NodeManagerMetrics.ContainersKilled killed状态的container个数

yarn.NodeManagerMetrics.ContainersLaunched 启动态的container个数

yarn.NodeManagerMetrics.ContainersRunning 运行态的container的个数

yarn 集群metrics

yarn.ClusterMetrics.NumActiveNMs 活的nodemanager个数

yarn.ClusterMetrics.NumLostNMs 不健康的nodemanager个数

yarn 任务队列metrics

yarn.QueueMetrics.ActiveApplications 活跃的task的个数

yarn.QueueMetrics.ActiveUsers 活跃的用户个数

yarn.QueueMetrics.AggregateContainersAllocated 总共分配的container个数

yarn.QueueMetrics.AggregateContainersReleased 总共释放的container个数

yarn.QueueMetrics.AllocatedContainers 已经分配的container个数

yarn.QueueMetrics.AllocatedMB 已经分配的内存

yarn.QueueMetrics.AppsCompleted 已完成的task数

yarn.QueueMetrics.AppsPending 挂起的task数

yarn.QueueMetrics.AppsRunning 运行的task数

yarn.QueueMetrics.AppsSubmitted 已经提交的task数

yarn.QueueMetrics.AvailableMB 可用的内存

yarn.QueueMetrics.PendingContainers 挂起的container数

yarn.QueueMetrics.PendingMB 挂起的内存

yarn.QueueMetrics.running_0 运行时间在0-60分钟内的task个数

yarn.QueueMetrics.running_1440 运行时间在1440分钟以上的task个数

yarn.QueueMetrics.running_300 运行时间在300-1440分钟内的task个数

yarn.QueueMetrics.running_60 运行时间在60-300分钟内的task个数

hadoop rpc参数监控metrics

rpc.metrics.NumOpenConnections number of open connections rpc连接打开的数目

rpc.metrics.ReceivedBytes number of bytes received rpc收到的字节数

rpc.metrics.RpcProcessingTime_avg_time Average time for RPC Operations in last interval rpc在最近的交互中平均操作时间

rpc.metrics.RpcProcessingTime_num_ops rpc在最近的交互中连接数目

rpc.metrics.RpcQueueTime_avg_time rpc在交互中平均等待时间

rpc.metrics.RpcQueueTime_num_ops rpc queue中完成的rpc操作数目

rpc.metrics.SentBytes number of bytes sent rpc发送的数据字节

rpc.metrics.callQueueLen length of the rpc queue rpc 队列长度

rpc.metrics.rpcAuthenticationFailures number of failed authentications rpc 验证失败次数

rpc.metrics.rpcAuthenticationSuccesses number of successful authentications 验证成功数

rpc.metrics.rpcAuthorizationFailures number of failed authorizations 授权失败次数

rpc.metrics.rpcAuthorizationSuccesses number of successful authorizations 成功次数

rpc.detailed-metrics.canCommit_avg_time rpc询问是否提交任务平均时间

rpc.detailed-metrics.canCommit_num_ops rpc询问是否提交任务次数

rpc.detailed-metrics.commitPending_avg_time rpc报告任务提交完成,但是该提交仍然处于pending状态的平均时间

rpc.detailed-metrics.commitPending_num_ops rpc报告任务提交完成,但是该提交仍然处于pending状态的次数

rpc.detailed-metrics.done_avg_time rpc报告任务成功完成的平均时间

rpc.detailed-metrics.done_num_ops rpc报告任务成功完成的次数

rpc.detailed-metrics.fatalError_avg_time rpc报告任务出现fatalerror的平均时间

rpc.detailed-metrics.fatalError_num_ops rpc报告任务出现fatalerror的次数

rpc.detailed-metrics.getBlockInfo_avg_time 从指定datanode获取block的平均时间

rpc.detailed-metrics.getBlockInfo_num_ops 从指定datanode获取block的次数

rpc.detailed-metrics.getMapCompletionEvents_avg_time reduce获取已经完成的map输出地址事件的平均时间

rpc.detailed-metrics.getMapCompletionEvents_num_ops reduce获取已经完成的map输出地址事件的次数

rpc.detailed-metrics.getProtocolVersion_avg_time 获取rpc协议版本信息的平均时间

rpc.detailed-metrics.getProtocolVersion_num_ops 获取rpc协议版本信息的次数

rpc.detailed-metrics.getTask_avg_time 当子进程启动后,获取jvmtask的平均时间

rpc.detailed-metrics.getTask_num_ops 当子进程启动后,获取jvmtask的次数

rpc.detailed-metrics.ping_avg_time 子进程周期性的检测父进程是否还存活的平均时间

rpc.detailed-metrics.ping_num_ops 子进程周期性的检测父进程是否还存活的次数

rpc.detailed-metrics.recoverBlock_avg_time 为指定的block开始恢复标记生成的平均时间

rpc.detailed-metrics.recoverBlock_num_ops 为指定的block开始恢复标记生成的次数

rpc.detailed-metrics.reportDiagnosticInfo_avg_time 向父进程报告任务错误消息的平均时间,该操作应尽可能少,这些消息会在jobtracker中保存

rpc.detailed-metrics.reportDiagnosticInfo_num_ops 向父进程报告任务错误消息的次数

rpc.detailed-metrics.startBlockRecovery_avg_time 开始恢复block的平均时间

rpc.detailed-metrics.startBlockRecovery_num_ops 开始恢复block的次数

rpc.detailed-metrics.statusUpdate_avg_time 汇报子进程进度给父进程的平均时间

rpc.detailed-metrics.statusUpdate_num_ops 汇报子进程进度给父进程的次数

rpc.detailed-metrics.updateBlock_avg_time 更新block到新的标记及长度的平均操作时间

rpc.detailed-metrics.updateBlock_num_ops 更新block到新的标记及长度的次数

jvm参数监控metrics

jvm.JvmMetrics.GcCount JVM进行GC的次数

jvm.JvmMetrics.GcTimeMillis GC花费的时间,单位为微妙

jvm.JvmMetrics.LogError Log中输出ERROR的次数

jvm.JvmMetrics.LogFatal Log中输出FATAL的次数

jvm.JvmMetrics.LogInfo Log中输出INFO的次数

jvm.JvmMetrics.LogWarn Log中输出WARN的次数

jvm.JvmMetrics.MemHeapCommittedM JVM分配的堆大小(单位MB)

jvm.JvmMetrics.MemHeapUsedM JVM已经使用的堆大小(单位MB)

jvm.JvmMetrics.MemNonHeapCommittedM JVM分配给非堆的大小(单位M)

jvm.JvmMetrics.MemNonHeapUsedM JVM已使用的非堆的大小(单位M)

jvm.JvmMetrics.ThreadsBlocked 处于BLOCKED状态线程数量

jvm.JvmMetrics.ThreadsNew 处于NEW状态线程数量

jvm.JvmMetrics.ThreadsRunnable 处于RUNNABLE状态线程数量

jvm.JvmMetrics.ThreadsTerminated 处于TERMINATED状态线程数量

jvm.JvmMetrics.ThreadsTimedWaiting 处于TIMED_WAITING状态线程数量

jvm.JvmMetrics.ThreadsWaiting 处于WAITING状态线程数量

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics