Saltar a contenido

Prometheus

  • Que es: el recolector y evaluador central de metricas.
  • Para que sirve: junta metricas de todo el stack, carga reglas y decide cuando disparar alertas.
  • Donde corre: stack /opt/stacks/observability en el VPS.
  • Contenedor asociado: obs-prometheus.
  • Red Docker: obs-observability-internal.
  • Volumenes asociados: obs_prometheus_data y bind mounts de prometheus.yml, rules/ y targets/.
  • Puertos: 9090/tcp interno, no publicado al host.
  • Depende de: obs-alertmanager, obs-node-exporter, obs-cadvisor, obs-blackbox-exporter, obs-grafana, obs-thanos-query, obs-thanos-sidecar, obs-thanos-storegateway, obs-thanos-compactor.
  • Quien depende de el: obs-thanos-sidecar y, de forma indirecta, toda alerta y todo dashboard.
  • Que metricas aporta: propias de Prometheus, incluyendo prometheus_tsdb_*, salud de scrapes up y estado de reglas.
  • Que alertas lo protegen: PrometheusTargetDown, PrometheusTsdbGrowthWarning, PrometheusTsdbGrowthCritical.
  • Que dashboards lo usan: todos de Grafana, pero siempre a traves de Thanos Query; el dashboard mas directo es Capacity Planning.
  • Como validar que esta bien: docker exec obs-prometheus promtool check config /etc/prometheus/prometheus.yml, revisar /api/v1/targets y confirmar scrapes UP.
  • Que hacer si falla: revisar logs, validar prometheus.yml, revisar la red interna y confirmar que obs_prometheus_data siga montado.

Evidencia real

  • compose: infra/observability/docker-compose.yml
  • scrapes: infra/observability/prometheus/prometheus.yml
  • reglas: infra/observability/prometheus/rules/*.yml
  • runtime auditado: docs/governance/operations/O6.0-REALITY-AUDIT.md

Dashboards mas relacionados

  • Capacity Planning
  • Service Availability
  • Executive Overview

Recovery corto

Si obs-prometheus cae pero el volumen sigue sano, levantar el servicio suele recuperar scraping y reglas. Si el volumen se corrompe, usar RESTORE-OBSERVABILITY-O4.md.