Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in die Skalierung von Ollama
- Ollamas Architektur und Skalierungsaspekte
- Häufige Auslastungspunkte bei mehrbenutzerigen Bereitstellungen
- Bester Praxisleitfaden für Infrastrukturreife
Ressourcenallokation und GPU-Optimierung
- Effiziente CPU/GPU-Nutzungsstrategien
- Überlegungen zu Speicher und Bandbreite
- Ressourcenbeschränkungen auf Containerebene
Bereitstellung mit Containern und Kubernetes
- Kapselung von Ollama mit Docker
- Ausführen von Ollama in Kubernetes-Clustern
- Ladeausgleich und Dienstentdeckung
Autoskalierung und Batching
- Gestaltung von Autoskalierungsrichtlinien für Ollama
- Batch-Verfahren zur Durchsatzoptimierung
- Kompromisse zwischen Latenz und Durchsatz
Latenzoptimierung
- Profilerstellung der Inferenzleistung
- Cachingstrategien und Modellvorwärmen
- Verringern von I/O- und Kommunikationsaufwand
Überwachung und Beobachtbarkeit
- Integration von Prometheus für Metriken
- Bau von Dashboards mit Grafana
- Alarmierung und Incident Response für Ollama-Infrastruktur
Kostengestion und Skalierungsstrategien
- kostenbewusste GPU-Allokation
- Betrachtungen zur Cloud im Vergleich zu on-prem-Bereitstellungen
- Strategien für nachhaltige Skalierung
Zusammenfassung und weitere Schritte
Voraussetzungen
- Erfahrung im Administrieren von Linux-Systemen
- Verständnis von Containerisierung und Orchestration
- Bekanntschaft mit der Bereitstellung von Machine-Learning-Modellen
Zielgruppe
- DevOps-Ingenieure
- ML-Infrastrukturteams
- Ingenieure für die Sitesicherheit
21 Stunden