Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in prädiktives AIOps
- Überblick über prädiktive Analytik im IT-Betrieb
- Datenquellen für Vorhersagen (Logs, Metriken, Events)
- Kernkonzepte der Zeitreihenvorhersage und Anomalieerkennung
Entwicklung von Incident-Vorhersagemodellen
- Markieren historischer Incidents und Systemverhalten
- Auswahl und Schulung von Modellen (z. B. LSTM, Random Forest, AutoML)
- Bewertung der Modellleistung und Umgang mit Falschmeldungen
Datenerfassung und Feature-Engineering
- Erfassen und Ausrichten von Log- und Metrikdaten für die Modelleingabe
- Extrahieren von Merkmalen aus strukturierten und unstrukturierten Daten
- Umgang mit Rauschen und fehlenden Daten in Betriebs-Pipelines
Automatisierung der Root-Cause-Analyse (RCA)
- Graphbasierte Korrelation von Diensten und Infrastruktur
- Einsatz von ML, um wahrscheinliche Root Causes aus Ereignisketten abzuleiten
- Visualisierung der RCA mit topologiebewussten Dashboards
Remediation und Workflow-Automatisierung
- Integration mit Automatisierungsplattformen (z. B. Ansible, Rundeck)
- Auslösen von Rollbacks, Neustarts oder Traffic-Umleitungen
- Prüfen und Dokumentieren automatisierter Eingriffe
Skalierung intelligenter AIOps-Pipelines
- MLOps für Observability: Schulung der Modelle erneut und Versionierung von Modellen
- Ausführung von Vorhersagen in Echtzeit über verteilte Knoten hinweg
- Best Practices für die Bereitstellung von AIOps in Produktionsumgebungen
Fallstudien und praktische Anwendungen
- Analysieren realer Incidents mit prädiktiven AIOps-Modellen
- Bereitstellen von RCA-Pipelines mit synthetischen und Produktionsdaten
- Überprüfung von Branchenanwendungen: Cloud-Ausfälle, Instabilität bei Microservices, Netzwerkdegradationen
Zusammenfassung und nächste Schritte
Voraussetzungen
- Erfahrung mit Monitoring-Systemen wie Prometheus oder ELK
- Grundlegende Kenntnisse in Python und maschinellem Lernen
- Vertrautheit mit Workflow-Prozessen des Incident-Managements
Zielgruppe
- Senior Site Reliability Engineers (SREs)
- IT-Automationsarchitekten
- Leiter von DevOps- und Observability-Plattformen
14 Stunden