O3 Alerts Catalog¶

Catalogo operativo de alertas controladas al 2026-06-01.

Objetivo¶

Detectar problemas reales del VPS, Docker, servicios y Prometheus sin generar ruido innecesario.

Principios¶

usar umbrales conservadores
usar for: para evitar falsos positivos
usar solo severidades warning y critical
escribir mensajes claros para personas no tecnicas
no abrir puertos nuevos
no exponer Grafana
no enviar notificaciones externas todavia

Receiver actual¶

Alertmanager queda en modo local con receiver local-null
la plataforma agrupa por alert_group y severity
una alerta critical inhibe la warning equivalente cuando comparten contexto
hoy las alertas se revisan en Prometheus, Alertmanager y dashboards O2

Alertas de host¶

Alerta	Severidad	Intencion	Umbral	Duracion	Que revisar primero
`HostDiskUsageHighWarning`	`warning`	avisar que el disco empieza a ponerse tenso	`/` arriba de `80%`	`15m`	crecimiento de datos, backups y retencion
`HostDiskUsageHighCritical`	`critical`	avisar riesgo real de saturacion del VPS	`/` arriba de `90%`	`15m`	directorio que crece y margen para backup / Prometheus
`HostMemoryUsageHighWarning`	`warning`	avisar RAM alta sostenida	RAM usada arriba de `85%`	`15m`	contenedor o proceso que esta creciendo
`HostMemoryUsageHighCritical`	`critical`	avisar riesgo de degradacion por memoria	RAM usada arriba de `92%`	`15m`	consumo de contenedores y estado de swap
`HostCpuUsageHighWarning`	`warning`	avisar CPU alta sostenida	CPU arriba de `85%`	`15m`	top consumidores del host y Docker
`HostCpuUsageHighCritical`	`critical`	avisar riesgo real de lentitud por CPU	CPU arriba de `95%`	`15m`	carga real y servicio que la produce
`HostLoadHighWarning`	`warning`	avisar cola de trabajo sostenida	load15 mayor a `1.5` por CPU	`15m`	CPU, RAM y disco en conjunto
`HostLoadHighCritical`	`critical`	avisar presion fuerte del host	load15 mayor a `2` por CPU	`15m`	cuello de botella real antes de intervenir

Alertas de Docker¶

Alerta	Severidad	Intencion	Umbral	Duracion	Que revisar primero
`DockerTrackedContainerDown`	`critical`	detectar si cae un contenedor clave	`openclaw-openclaw-gateway-1`, `nginx-proxy-manager` o `portainer` sin verse por mas de `4m`, solo si `cAdvisor` sigue `UP`	`2m` adicionales	`docker ps`, logs y reinicios recientes
`CadvisorNoData`	`warning`	avisar perdida de metricas de contenedores	`up{job="cadvisor"} == 0`	`5m`	contenedor `obs-cadvisor` y acceso a Docker
`NodeExporterNoData`	`warning`	avisar perdida de metricas del host	`up{job="node-exporter"} == 0`	`5m`	contenedor `obs-node-exporter` y mounts readonly

Nota operativa: si cae cAdvisor, la plataforma debe disparar CadvisorNoData y no inferir caida de openclaw-openclaw-gateway-1, nginx-proxy-manager ni portainer solo por perdida de la fuente container_last_seen.

Alertas de servicios¶

Alerta	Severidad	Intencion	Umbral	Duracion	Que revisar primero
`OpenClawHttpsDown`	`critical`	detectar caida publica real de OpenClaw	`probe_success=0` sobre `https://openclaw.alpuntodeventa.com.ar/`	`3m`	Service Availability, upstream de NPM y contenedor OpenClaw
`NpmLocalAdminDown`	`warning`	detectar caida local de administracion NPM	`probe_success=0` sobre `http://host.docker.internal:81/`	`5m`	contenedor `nginx-proxy-manager`, logs y host
`PortainerLocalDown`	`warning`	detectar caida local de administracion Portainer	`probe_success=0` sobre `https://host.docker.internal:9443/`	`5m`	contenedor `portainer`, logs y escucha local
`BlackboxProbeFailed`	`warning`	marcar que un probe de disponibilidad falla	`probe_success=0`	`5m`	endpoint puntual, red o SSL del destino

Alertas de Prometheus¶

Alerta	Severidad	Intencion	Umbral	Duracion	Que revisar primero
`PrometheusTargetDown`	`warning`	detectar targets internos caidos	`up=0` en targets sin alerta especifica propia	`5m`	Targets de Prometheus y logs del servicio afectado
`PrometheusTsdbGrowthWarning`	`warning`	avisar crecimiento fuerte de TSDB	proyeccion a `24h` mayor a `70%` del limite	`30m`	dashboard Capacity Planning y cardinalidad
`PrometheusTsdbGrowthCritical`	`critical`	avisar riesgo real de presion sobre TSDB	proyeccion a `24h` mayor a `85%` del limite	`30m`	causa del crecimiento antes de tocar retencion

Que hacer si dispara¶

mirar primero el dashboard O2 que mejor corresponda
confirmar si el problema es real con una segunda evidencia simple
revisar solo el servicio o recurso afectado
guardar evidencia del disparo antes de corregir

Que no hacer¶

no reiniciar todo Docker por una sola alerta
no borrar volumenes, backups ni datos para ganar espacio rapido
no tocar OpenClaw internamente
no abrir puertos nuevos para diagnosticar
no habilitar notificaciones externas sin decision formal

Por que no hay notificaciones externas todavia¶

primero habia que probar que las reglas no generen ruido
el stack todavia esta en etapa de ajuste conservador
falta decidir canal, horarios, responsables y politica de silencios

Proximo paso futuro recomendado¶

O3.1 ya fue revalidado en verde con drills controlados y regla endurecida
definir un canal externo unico y simple, por ejemplo email o chat
habilitarlo solo cuando el equipo confirme que O3 no genera spam