Saltar a contenido

Monitoring Catalog

Que es

Es la lista corta de chequeos que dicen si el VPS esta bien o si algo pide atencion.

Para que sirve

Sirve para revisar salud sin tener que adivinar que mirar primero.

Salud general del VPS

  • que es: estado general del host
  • para que sirve: muestra si el servidor esta estable
  • donde se revisa: host por SSH
  • como se revisa: uptime, free -h, df -h, swapon --show
  • que hacer si falla: revisar si el problema es CPU, RAM, disco o swap antes de tocar servicios

Docker

  • que es: el runtime de contenedores
  • para que sirve: sostiene OpenClaw, NPM y Portainer
  • donde se revisa: host Docker
  • como se revisa: docker ps, docker stats --no-stream
  • que hacer si falla: no reiniciar a ciegas; revisar contenedores, logs y cambios recientes

OpenClaw

  • que es: la aplicacion principal
  • para que sirve: chat, agentes y operacion
  • donde se revisa: contenedor y CLI
  • como se revisa: openclaw health --json, curl -I https://openclaw.alpuntodeventa.com.ar/
  • que hacer si falla: revisar health, auth, logs y NPM antes de decidir rollback

NPM

  • que es: el proxy reverso
  • para que sirve: publica OpenClaw y maneja SSL
  • donde se revisa: contenedor nginx-proxy-manager
  • como se revisa: curl -I https://openclaw.alpuntodeventa.com.ar/, docker exec nginx-proxy-manager curl -I http://openclaw-gateway:18789/
  • que hacer si falla: revisar proxy host, SSL, reachability y DNS

Portainer

  • que es: consola de administracion Docker
  • para que sirve: ayuda a inspeccionar el entorno
  • donde se revisa: contenedor portainer
  • como se revisa: curl -k -I https://127.0.0.1:9443
  • que hacer si falla: confirmar si es solo UI o si Docker tambien tiene problema

Observabilidad O4

  • que es: plataforma privada con Prometheus, Thanos, Grafana, Alertmanager y exporters
  • para que sirve: centraliza metricas del host, Docker y probes HTTPS, preserva historico en bucket y convierte Grafana en la consola operativa principal del VPS
  • donde se revisa: obs-observability-internal y localhost del VPS
  • como se revisa: docker ps --filter name=obs-, docker exec obs-prometheus wget -qO- http://127.0.0.1:9090/api/v1/targets, curl -I http://127.0.0.1:3000/login
  • que hacer si falla: revisar primero targets, luego logs del contenedor puntual y por ultimo volumenes O1
  • dashboards y carpetas: O4-DASHBOARDS-CATALOG.md
  • arquitectura rectora: OBSERVABILITY-O4-ARCHITECTURE.md

Backups

  • que es: la evidencia de recuperacion
  • para que sirve: baja el riesgo antes de cambios
  • donde se revisa: /root/openclaw-backups/daily/
  • como se revisa: buscar la ultima carpeta y confirmar .tgz, SHA256SUMS y manifest.txt
  • que hacer si falla: no actualizar nada hasta resolverlo

SSL

  • que es: el certificado HTTPS
  • para que sirve: protege la publicacion
  • donde se revisa: NPM y respuesta HTTPS del dominio
  • como se revisa: curl -I https://openclaw.alpuntodeventa.com.ar/
  • que hacer si falla: revisar NPM, DNS y renovacion de Let's Encrypt

Actualizaciones pendientes

  • que es: cambios disponibles en Ubuntu, Docker o servicios
  • para que sirve: ayuda a planear mantenimiento
  • donde se revisa: host y fichas de servicio
  • como se revisa: chequear paquetes pendientes y comparar versiones documentadas
  • que hacer si falla: si hay update critico, abrir ventana de cambio; si no, planificar

Riesgos de seguridad

  • que es: exposicion, drift o falta de parches
  • para que sirve: evita sorpresas
  • donde se revisa: ../security/SECURITY-CHECKLIST.md
  • como se revisa: revisar puertos publicos, servicios expuestos, updates y backups
  • que hacer si falla: priorizar contencion y evidencia antes de cambios mayores