Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in AIOps
- Was ist AIOps und warum ist es wichtig?
- Traditionelles Monitoring im Vergleich zur durch AIOps unterstützten Beobachtbarkeit
- AIOps-Architektur und wesentliche Komponenten
Erfassung und Normalisierung von Betriebsdaten
- Arten von Beobachtungsdaten: Metriken, Logs und Traces
- Eingabe von Daten aus verschiedenen Quellen (Server, Container, Cloud)
- Verwendung von Agents und Exportern (Prometheus, Beats, Fluentd)
Datenkennung und Anomaliedetektion
- Zeitreihenkorrelation und statistische Methoden
- Verwendung von ML-Modellen zur Anomaliedetektion
- Erkennen von Vorfällen in verteilten Systemen
Alarmierung und Rauschunterdrückung
- Entwerfen intelligenter Alarmregeln und -schwellwerte
- Unterdrückung, Deduplizierung und Alarmgruppierung
- Integration mit Alertmanager, Slack, PagerDuty oder Opsgenie
Ursachenanalyse und Visualisierung
- Verwendung von Dashboards zur Visualisierung von Metriken und Erkennung von Trends
- Explorieren von Ereignissen und Zeitleisten für die Ursachenanalyse
- Verfolgen von Problemen über Schichten hinweg mit verteilten Tracing-Tools
Automatisierung und Fehlerbehebung
- Auslösen automatisierter Skripte oder Workflows aus Vorfällen
- Integration in ITSM-Systeme (ServiceNow, Jira)
- Anwendungsfälle: Selbstheilung, Skalierung, Verkehrsumleitung
Offene und kommerzielle AIOps-Plattformen
- Überblick über Tools: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- Kriterien zur Bewertung und Auswahl einer AIOps-Plattform
- Demo und Praxisübungen mit der ausgewählten Stack
Zusammenfassung und weitere Schritte
Voraussetzungen
- Ein Verständnis von IT-Operationen und Konzepten des System-Monitorings
- Erfahrung mit Überwachungstools oder Dashboards
- Vertrautheit mit grundlegenden Log- und Metrikformaten
Zielgruppe
- Operations-Teams, die für Infrastruktur und Anwendungen verantwortlich sind
- Site Reliability Engineers (SREs)
- IT-Monitoring- und -Beobachtungsteams
14 Stunden