Aller au contenu

Runbook : Host monitoring (OpenClaw host)

Contacts

  • Ops principal : Pascal C. Lisbonne (Telegram ID 1855471259)
  • Hostname : srv1471630.hstgr.cloud

Services de monitoring actifs

Service Fréquence Description
host-monitor.timer toutes les 5 min Alertes seuils disque/mémoire/inodes
host-daily-report.timer 08:00 UTC Rapport complet envoyé sur Telegram
tg-archiver.service continu Archive les sessions OpenClaw

Alertes courantes

⚠️ Disk WARNING (> 80%)

du -h /docker/openclaw-nhcb/data | sort -hr | head -n 30
ls -lh /var/log
Si logs anciens : compresser ou supprimer les rotations > 7 jours.

🔴 Disk CRITICAL (> 90%)

  1. Alerter immédiatement.
  2. Identifier et purger les logs non critiques.
  3. Si updates.jsonl trop volumineux → vérifier logrotate ou déplacer vers stockage froid.
    du -h /docker/openclaw-nhcb/data/.openclaw/telegram-archive/updates.jsonl
    

⚠️ Memory low (≤ 10% free)

free -h
ps aux --sort=-%mem | head -20
Redémarrer OpenClaw si fuite mémoire suspectée (voir Rollback).

⚠️ Archive trop grande (≥ 2 GB)

logrotate -f /etc/logrotate.d/tg-archiver

Rollback OpenClaw

# Lister les backups disponibles
ls -lh /docker/openclaw-nhcb/data/.openclaw/openclaw.json.backup.*

# Restaurer (remplacer <ts> par le timestamp voulu)
cp /docker/openclaw-nhcb/data/.openclaw/openclaw.json.backup.<ts> \
   /docker/openclaw-nhcb/data/.openclaw/openclaw.json
docker restart openclaw-nhcb-openclaw-1

# Vérifier
docker logs --tail 30 openclaw-nhcb-openclaw-1

Commandes utiles

# Statut général des timers
systemctl list-timers --no-pager

# Logs monitor
journalctl -u host-monitor.service -n 50 --no-pager

# Logs archiveur
journalctl -u tg-archiver.service -n 50 --no-pager

# Requête archive (messages d'un groupe)
tg-archive-query.py --chat -5133114258 --role user

# Test alerte manuelle
systemctl start host-monitor.service