Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in AIOps
- Was ist AIOps und warum es wichtig ist
- Traditionelle Überwachung vs. AIOps-gesteuerte Observability
- AIOps-Architektur und Hauptkomponenten
Sammeln und Normalisieren von Betriebsdaten
- Arten von Observability-Daten: Metriken, Logs und Traces
- Erfassen von Daten aus verschiedenen Quellen (Server, Container, Cloud)
- Einsatz von Agents und Exportern (Prometheus, Beats, Fluentd)
Datennkorrelation und Anomalieerkennung
- Zeitreihen-Korrelation und statistische Methoden
- Einsatz von ML-Modellen für die Anomalieerkennung
- Erkennen von Vorfällen in verteilten Systemen
Alerting und Lärmreduktion
- Entwerfen intelligenter Alert-Regeln und Schwellenwerte
- Unterdrückung, Deduplizierung und Gruppierung von Alerts
- Integration mit Alertmanager, Slack, PagerDuty oder Opsgenie
Root-Cause-Analyse und Visualisierung
- Einsatz von Dashboards zur Visualisierung von Metriken und Erkennen von Trends
- Untersuchung von Ereignissen und Zeitstrahlen für die RCA (Root Cause Analysis)
- Nachverfolgung von Problemen über Schichten hinweg mit Tools für verteiltes Tracing
Automatisierung und Remediation
- Auslösen von automatisierten Skripten oder Workflows aus Vorfällen heraus
- Integration mit ITSM-Systemen (ServiceNow, Jira)
- Anwendungsfälle: Self-Healing, Skalierung, Traffic-Rerouting
Open-Source- und kommerzielle AIOps-Plattformen
- Überblick über Tools: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- Bewertungskriterien zur Auswahl einer AIOps-Plattform
- Demo und Praxis mit einem ausgewählten Stack
Zusammenfassung und weitere Schritte
Voraussetzungen
- Verständnis der IT-Betriebstätigkeiten und Konzepte der Systemüberwachung
- Erfahrung mit Überwachungstools oder Dashboards
- Vertrautheit mit grundlegenden Log- und Metrikformaten
Zielgruppe
- Operationsteams, die für Infrastruktur und Anwendungen zuständig sind
- Site Reliability Engineers (SREs)
- IT-Überwachungs- und Observability-Teams
14 Stunden