Schulungsübersicht

Grundlagen von agenbasierten Systemen in der Produktion

  • Agen-Architekturen: Schleifen, Tools, Speicher und Orchestrierungsschichten
  • Lebenszyklus von Agenten: Entwicklung, Bereitstellung und kontinuierlicher Betrieb
  • Herausforderungen der produktionsweiten Agentenverwaltung

Infrastruktur- und Bereitstellungsmodelle

  • Bereitstellung von Agenten in containerisierten und Cloud-Umgebungen
  • Skalierungsmuster: horizontale vs. vertikale Skalierung, Konkurrenzfähigkeit und Drosselung
  • Multi-Agenten-Orchestrierung und Workload-Ausgleich

Monitoring und Beobachtbarkeit

  • Wichtige Metriken: Latenz, Erfolgsrate, Speichernutzung und Agentenaufruftiefe
  • Nachverfolgung von Agententätigkeiten und Aufrufgraphen
  • Instrumentierung der Beobachtbarkeit mit Prometheus, OpenTelemetry und Grafana

Logging, Auditing und Compliance

  • Zentralisierte Logging- und strukturierte Ereignisprotokollierung
  • Compliance und Nachvollziehbarkeit in agenbasierten Workflows
  • Entwurf von Audit Trails und Replay-Mechanismen für das Debugging

Leistungsoptimierung und Ressourcenoptimierung

  • Reduzieren der Inferenzoverhead und Optimieren von Agenten-Orchestrierungsschleifen
  • Modellcaching und leichtgewichtige Einbettungen für schnelleres Abrufen
  • Lasttests und Stressszenarien für AI-Pipelines

Kostenkontrolle und Governance

  • Verstehen von Agentenkostenfaktoren: API-Aufrufe, Speicher, Rechenleistung und externe Integrationen
  • Nachverfolgen von agentenspezifischen Kosten und Implementieren von Chargeback-Modellen
  • Automatisierungspolicys, um Agentensprawl und die Nutzung Leerlaufressourcen zu verhindern

CI/CD- und Rolloutstrategien für Agenten

  • Integrieren von Agentenpipelines in CI/CD-Systeme
  • Testing, Versionierung und Rollback-Strategien für iterative Agentenaktualisierungen
  • Progressive Rollouts und sichere Bereitstellungsmechanismen

Fehlertoleranz und Zuverlässigkeitsingenieurwesen

  • Design für Fehlertoleranz und sanfte Degradierung
  • Retry-, Timeout- und Circuit-Breaker-Muster für Agenten-Zuverlässigkeit
  • Vorfallbewältigung und Post-Mortem-Rahmen für AI-Operationen

Abschlussprojekt

  • Erstellen und Bereitstellen eines agenbasierten AI-Systems mit vollständigem Monitoring und Kostentracking
  • Simulieren von Last, Messen der Leistung und Optimieren der Ressourcennutzung
  • Vorstellen der finalen Architektur und des Monitoring-Dashboards an Kollegen

Zusammenfassung und Nächste Schritte

Voraussetzungen

  • Solides Verständnis von MLOps und Produktions-ML-Systemen
  • Erfahrung mit containerisierten Bereitstellungen (Docker/Kubernetes)
  • Kenntnisse in Cloud-Kostenoptimierung und Beobachtbarkeitstools

Zielgruppe

  • MLOps-Ingenieure
  • Site Reliability Engineers (SREs)
  • Engineering-Manager, die AI-Infrastrukturen überwachen
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (3)

Kommende Kurse

Verwandte Kategorien