Kontakt aufnehmen

Schulungsübersicht

EXO Infrastructure as Code

  • Übersicht über EXO-Bereitstellungsmuster: Single-Node-, Multi-Node- und RDMA-Cluster
  • Automatisierung der Abhängigkeitsinstallation (Xcode, uv, Node.js, Rust) mit Konfigurationsverwaltung
  • Verwendung von Nix Flakes für reproduzierbare EXO-Builds und Entwicklerumgebungen
  • Verfassen von Ansible Playbooks oder Shell-Skripten für die unbeaufsichtigte Cluster-Bereitstellung

Reproduzierbare Builds und CI-Integration

  • Pin-Dependencies und Erstellen des Dashboards in CI-Pipelines
  • Ausführen von EXO-Rauchmelder-Tests (Smoke Tests) in GitHub Actions oder GitLab CI-Läufen
  • Erstellen von Golden Images und Rollback-Workflows auf Basis von Snapshots für macOS- und Linux-VMs
  • Versionierung benutzerdefinierter Modellkarten zusammen mit dem Anwendungscode

Cluster-Discovery und Netzwerkautomatisierung

  • Konfiguration von mDNS und statischem DNS für eine zuverlässige libp2p-Node-Discovery
  • Automatisierung der Erstellung von Netzwerkprofilen und Verwaltung von Thunderbolt-Bridges unter macOS
  • Nutzung benutzerdefinierter Namespaces (EXO_LIBP2P_NAMESPACE) zur Trennung von Entwicklungs-, Staging- und Produktionsclustern
  • Firewall-Regeln und Netzwerksegmentierung für Multitenant-Umgebungen

Speicherverwaltung und Modell-Lebenszyklus

  • Entwurf von Strategien für EXO_MODELS_DIRS und EXO_MODELS_READ_ONLY_DIRS
  • Mounten von NFS- oder SAN-Shares als schreibgeschützte Modellrepositorys für schnelle Provisioning
  • Garbage Collection abgelaufener Caches und Aufbewahrungsrichtlinien für versionierte Gewichtungen
  • Automatisierung des Vorab-Downloads von Modellen und Health Checks vor Rolling Updates

Überwachung und Alarmierung

  • Übertragung von EXO-Logs an zentrale Logging-Systeme (ELK, Loki oder Splunk)
  • Erstellen von Grafana-Dashboards basierend auf EXO_TRACING_ENABLED-Ausgaben
  • Alarmierung bei Änderungen der Cluster-Mitgliedschaft, OOM-Ereignissen und Spitzen bei der Inferenz-Latenz
  • Korrelation von macmon-Hardware-Telemetrie mit Performance-Einbrüchen bei Modellen

Updates, Rollbacks und Disaster Recovery

  • Vorbereitung von EXO-Binary-Updates auf einem Canary-Knoten vor dem flottenweiten Rollout
  • Modell-Level-Rollback: Wechseln zwischen quantisierten Versionen ohne Neuladen
  • Sichern und Wiederherstellen des Cluster-Zustands, benutzerdefinierter Namespaces und gecachter Gewichtungen
  • Dokumentieren von Recovery-Runbooks für Szenarien eines vollständigen Cluster-Neuaufbaus

Security-Hardening und Compliance

  • Anwenden von TLS auf der Reverse-Proxy-Ebene (nginx, traefik) für das Dashboard und die API
  • Implementierung von API-Rate-Limiting und IP-Whitelisting für EXO-Endpunkte
  • Isolierung von Clustern mittels VLANs und Zero-Trust-Netzwerkrichtlinien
  • Auditieren des Zugriffs und Pflegen eines Inventars bereitgestellter Modelle und Versionen

Voraussetzungen

  • Erfahrung mit DevOps-Praktiken (CI/CD, IaC, Container-Orchestrierung)
  • Vertrautheit mit der Systemadministration und Paketverwaltung unter macOS oder Linux
  • Grundkenntnisse in Netzwerken, DNS und Speicher Konzepten

Zielgruppe

  • DevOps-Ingenieure
  • Infrastrukturarchitekten
  • SREs, die für On-Premise-KI-Workloads verantwortlich sind
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (2)

Kommende Kurse

Verwandte Kategorien