Schulungsübersicht
Grundlagen von agenbasierten Systemen in der Produktion
- Agen-Architekturen: Schleifen, Tools, Speicher und Orchestrierungsschichten
- Lebenszyklus von Agenten: Entwicklung, Bereitstellung und kontinuierlicher Betrieb
- Herausforderungen der produktionsweiten Agentenverwaltung
Infrastruktur- und Bereitstellungsmodelle
- Bereitstellung von Agenten in containerisierten und Cloud-Umgebungen
- Skalierungsmuster: horizontale vs. vertikale Skalierung, Konkurrenzfähigkeit und Drosselung
- Multi-Agenten-Orchestrierung und Workload-Ausgleich
Monitoring und Beobachtbarkeit
- Wichtige Metriken: Latenz, Erfolgsrate, Speichernutzung und Agentenaufruftiefe
- Nachverfolgung von Agententätigkeiten und Aufrufgraphen
- Instrumentierung der Beobachtbarkeit mit Prometheus, OpenTelemetry und Grafana
Logging, Auditing und Compliance
- Zentralisierte Logging- und strukturierte Ereignisprotokollierung
- Compliance und Nachvollziehbarkeit in agenbasierten Workflows
- Entwurf von Audit Trails und Replay-Mechanismen für das Debugging
Leistungsoptimierung und Ressourcenoptimierung
- Reduzieren der Inferenzoverhead und Optimieren von Agenten-Orchestrierungsschleifen
- Modellcaching und leichtgewichtige Einbettungen für schnelleres Abrufen
- Lasttests und Stressszenarien für AI-Pipelines
Kostenkontrolle und Governance
- Verstehen von Agentenkostenfaktoren: API-Aufrufe, Speicher, Rechenleistung und externe Integrationen
- Nachverfolgen von agentenspezifischen Kosten und Implementieren von Chargeback-Modellen
- Automatisierungspolicys, um Agentensprawl und die Nutzung Leerlaufressourcen zu verhindern
CI/CD- und Rolloutstrategien für Agenten
- Integrieren von Agentenpipelines in CI/CD-Systeme
- Testing, Versionierung und Rollback-Strategien für iterative Agentenaktualisierungen
- Progressive Rollouts und sichere Bereitstellungsmechanismen
Fehlertoleranz und Zuverlässigkeitsingenieurwesen
- Design für Fehlertoleranz und sanfte Degradierung
- Retry-, Timeout- und Circuit-Breaker-Muster für Agenten-Zuverlässigkeit
- Vorfallbewältigung und Post-Mortem-Rahmen für AI-Operationen
Abschlussprojekt
- Erstellen und Bereitstellen eines agenbasierten AI-Systems mit vollständigem Monitoring und Kostentracking
- Simulieren von Last, Messen der Leistung und Optimieren der Ressourcennutzung
- Vorstellen der finalen Architektur und des Monitoring-Dashboards an Kollegen
Zusammenfassung und Nächste Schritte
Voraussetzungen
- Solides Verständnis von MLOps und Produktions-ML-Systemen
- Erfahrung mit containerisierten Bereitstellungen (Docker/Kubernetes)
- Kenntnisse in Cloud-Kostenoptimierung und Beobachtbarkeitstools
Zielgruppe
- MLOps-Ingenieure
- Site Reliability Engineers (SREs)
- Engineering-Manager, die AI-Infrastrukturen überwachen
Erfahrungsberichte (3)
Guter Mix aus Wissen und Praxis
Ion Mironescu - Facultatea S.A.I.A.P.M.
Kurs - Agentic AI for Enterprise Applications
Maschinelle Übersetzung
Die Mischung aus Theorie und Praxis sowie hoch- und niedrigstufigen Perspektiven
Ion Mironescu - Facultatea S.A.I.A.P.M.
Kurs - Autonomous Decision-Making with Agentic AI
Maschinelle Übersetzung
praktische Übungen
Daniel - Facultatea S.A.I.A.P.M.
Kurs - Agentic AI in Multi-Agent Systems
Maschinelle Übersetzung