Prometheus integration

┌────────────────┐       ┌────────────────┐
│                │ scrape│                │
│   Prometheus   │◄──────┤  AIStore Node  │
│                │       │   /metrics     │
└────────────────┘       └────────────────┘
       ││
       ││ query
       ▼
┌────────────────┐
│                │
│     Grafana    │
│                │
└────────────────┘

ais_target_<metric_name>{node_id="T1"} <value>

$ $ curl http://<node>:<port>/metrics
$ # or
$ $ curl https://<node>:<port>/metrics

# HELP ais_target_put_bytes total bytes served via PUT
# TYPE ais_target_put_bytes counter
ais_target_put_bytes{node_id="ClCt8081"} 1.721761792e+10
# HELP ais_target_put_ns_total total PUT latency (nanoseconds)
# TYPE ais_target_put_ns_total counter
ais_target_put_ns_total{node_id="ClCt8081"} 9.44367232e+09
# HELP ais_target_state_flags node state and alert flags
# TYPE ais_target_state_flags gauge
ais_target_state_flags{node_id="ClCt8081"} 6

$ for i in {1..99999}; do
$   curl -s http://hostname:8081/metrics | grep "ais_target_get_count"
$   sleep 1
$ done

Group	Description	Examples
1. Datapath	GET/PUT counters, sizes, latencies, rate-limiting, I/O errors	`ais_target_get_count`, `ais_target_put_bps`, `ais_target_ratelim_retry_get_n`
2. Metadata (in-memory)	Lcache activity (evictions, collisions)	`ais_target_lcache_evicted_count`
3. Extended Actions (xactions)	Background & multi-object jobs: LRU, EC, rebalance, ETL, Download, DSort, GetBatch	`ais_target_lru_evict_n`, `ais_target_getbatch_n`
4. Streams	Long-lived peer-to-peer (SharedDM) streaming channels	`ais_target_streams_out_obj_n`

Label	Usage
`node_id`	Node identity (target or gateway)
`disk`	Disk name for per-disk metrics
`bucket`	Source/destination bucket
`xaction`	Xaction UUID for multi-object jobs
`slice`	For erasure coding slice metrics
`archpath`	For per-file shard extraction (GetBatch)

sum by (node_id)(rate(ais_target_put_bytes[5m]))
sum by (disk)(ais_target_disk_util)

1 sum(rate(ais_target_get_count[5m]))

1 sum(rate(ais_target_get_ns_total[5m]))
2 / sum(rate(ais_target_get_count[5m]))
3 / 1e6   # convert ns → ms

1 ais_target_disk_util{disk="nvme0n1"}

1 sum(rate(ais_target_err_get_count[5m]))
2 / sum(rate(ais_target_get_count[5m])) * 100

1 sum(ais_target_capacity_used)
2 /
3 sum(ais_target_capacity_total)
4 * 100

1 sum(rate(ais_target_getbatch_n[5m]))

1 sum(rate(ais_target_getbatch_obj_size[5m]))
2 +
3 sum(rate(ais_target_getbatch_file_size[5m]))

1 sum(rate(ais_target_getbatch_rxwait_ns[5m]))
2 /
3 (
4   sum(rate(ais_target_getbatch_rxwait_ns[5m])) +
5   sum(rate(ais_target_getbatch_throttle_ns[5m]))
6 )

1 rate(ais_target_err_soft_getbatch_n[5m])
2 rate(ais_target_err_getbatch_n[5m])

$ $ ais show cluster

1 ais_target_state_flags & 8192  > 0  # OOS
2 or ais_target_state_flags & 16384 > 0  # OOM
3 or ais_target_state_flags & 65536 > 0  # DiskFault

1 ais_target_state_flags & 4096 > 0  # LowCapacity
2 or ais_target_state_flags & 8192 > 0  # LowMemory

ais_target_state_flags{node_id=~"$node"} & 8192 > 0

Document	Description
Overview	AIS observability introduction
CLI	CLI monitoring and commands
Logs	Log-based observability
Metrics Reference	Full AIS metric catalog
Grafana	Grafana dashboards
Kubernetes	K8s deployment monitoring
GetBatch Monitoring	Multi-object retrieval metrics and analysis

Document	Description
Overview	AIS observability introduction
CLI	CLI monitoring and commands
Logs	Log-based observability
Metrics Reference	Full AIS metric catalog
Grafana	Grafana dashboards
Kubernetes	K8s deployment monitoring
GetBatch Monitoring	Multi-object retrieval metrics and analysis

$	$ curl http://<node>:<port>/metrics
$	# or
$	$ curl https://<node>:<port>/metrics

$	for i in {1..99999}; do
$	curl -s http://hostname:8081/metrics \| grep "ais_target_get_count"
$	sleep 1
$	done

1	sum(rate(ais_target_get_ns_total[5m]))
2	/ sum(rate(ais_target_get_count[5m]))
3	/ 1e6 # convert ns → ms

1	sum(rate(ais_target_err_get_count[5m]))
2	/ sum(rate(ais_target_get_count[5m])) * 100

1	sum(ais_target_capacity_used)
2	/
3	sum(ais_target_capacity_total)
4	* 100

1	sum(rate(ais_target_getbatch_obj_size[5m]))
2	+
3	sum(rate(ais_target_getbatch_file_size[5m]))

1	sum(rate(ais_target_getbatch_rxwait_ns[5m]))
2	/
3	(
4	sum(rate(ais_target_getbatch_rxwait_ns[5m])) +
5	sum(rate(ais_target_getbatch_throttle_ns[5m]))
6	)

1	rate(ais_target_err_soft_getbatch_n[5m])
2	rate(ais_target_err_getbatch_n[5m])

1	ais_target_state_flags & 8192 > 0 # OOS
2	or ais_target_state_flags & 16384 > 0 # OOM
3	or ais_target_state_flags & 65536 > 0 # DiskFault

1	ais_target_state_flags & 4096 > 0 # LowCapacity
2	or ais_target_state_flags & 8192 > 0 # LowMemory

Table of Contents

Overview

Monitoring Stack

Native Exporter

Viewing Raw Metrics

Key Metric Groups

Metric Labels

Essential PromQL Queries

GET operations per second

Average GET latency (ms)

Disk utilization

GET error percentage

Total cluster capacity usage

GetBatch (x-moss) Queries

Work items per second

Logical payload throughput

Stall breakdown (RxWait vs Throttle)

Soft vs Hard Error Rates

Node Alerts

Red (critical)

Warning

Informational

CLI Monitoring

Prometheus Queries

Grafana Alert Example

Best Practices

Related Documentation

Table of Contents

Overview

Monitoring Stack

Prometheus Integration

Native Exporter

Viewing Raw Metrics

Key Metric Groups

Metric Labels

Essential PromQL Queries

GET operations per second

Average GET latency (ms)

Disk utilization

GET error percentage

Total cluster capacity usage

GetBatch (x-moss) Queries

Work items per second

Logical payload throughput

Stall breakdown (RxWait vs Throttle)

Soft vs Hard Error Rates

Node Alerts

Red (critical)

Warning

Informational

CLI Monitoring

Prometheus Queries

Grafana Alert Example

Best Practices

Related Documentation