Saltar a contenido

Knowledge - Observability

Fecha de ultima actualizacion: 2026-06-01

Para que sirve esta carpeta

Esta carpeta explica, en lenguaje simple, como funciona hoy la observabilidad real del VPS.

Todas las fichas de abajo salen de estas fuentes:

  • infra/observability/docker-compose.yml
  • infra/observability/prometheus/prometheus.yml
  • infra/observability/prometheus/rules/*.yml
  • infra/observability/grafana/provisioning/datasources/prometheus.yml
  • infra/observability/grafana/dashboards/
  • docs/governance/operations/O4-DASHBOARDS-CATALOG.md
  • docs/governance/operations/O4-ALERTS-CATALOG.md
  • docs/governance/operations/O6.0-REALITY-AUDIT.md
  • auditoria SSH del 2026-06-01 sobre docker ps

Componentes activos

Lectura rapida

  • Prometheus junta metricas, evalua reglas y manda alertas.
  • Thanos agrega historico y deja a Grafana consultar sin pegarle directo a Prometheus.
  • Grafana muestra tableros.
  • Alertmanager agrupa y enruta alertas.
  • Node Exporter, cAdvisor y Blackbox Exporter son los sensores.

Dashboards activos hoy

  • Infrastructure Health
  • Capacity Planning
  • Docker Operations
  • Service Availability
  • Executive Overview

Todos usan la datasource Thanos, cuyo uid real es thanos y cuya URL interna real es http://thanos-query:10902.

Alertas activas hoy

  • Watchdog
  • PrometheusTargetDown
  • PrometheusTsdbGrowthWarning
  • PrometheusTsdbGrowthCritical
  • ThanosComponentDown
  • HostDiskUsageHighWarning
  • HostDiskUsageHighCritical
  • HostMemoryUsageHighWarning
  • HostMemoryUsageHighCritical
  • HostCpuUsageHighWarning
  • HostCpuUsageHighCritical
  • HostLoadHighWarning
  • HostLoadHighCritical
  • DockerTrackedContainerDown
  • CadvisorNoData
  • NodeExporterNoData
  • OpenClawHttpsDown
  • NpmLocalAdminDown
  • PortainerLocalDown
  • BlackboxProbeFailed
  • CertificateExpiryWarning
  • CertificateExpiryCritical

Diagrama relacionado