Schulungsübersicht

Einführung in die Skalierung von Ollama

  • Ollamas Architektur und Skalierungsaspekte
  • Häufige Auslastungspunkte bei mehrbenutzerigen Bereitstellungen
  • Bester Praxisleitfaden für Infrastrukturreife

Ressourcenallokation und GPU-Optimierung

  • Effiziente CPU/GPU-Nutzungsstrategien
  • Überlegungen zu Speicher und Bandbreite
  • Ressourcenbeschränkungen auf Containerebene

Bereitstellung mit Containern und Kubernetes

  • Kapselung von Ollama mit Docker
  • Ausführen von Ollama in Kubernetes-Clustern
  • Ladeausgleich und Dienstentdeckung

Autoskalierung und Batching

  • Gestaltung von Autoskalierungsrichtlinien für Ollama
  • Batch-Verfahren zur Durchsatzoptimierung
  • Kompromisse zwischen Latenz und Durchsatz

Latenzoptimierung

  • Profilerstellung der Inferenzleistung
  • Cachingstrategien und Modellvorwärmen
  • Verringern von I/O- und Kommunikationsaufwand

Überwachung und Beobachtbarkeit

  • Integration von Prometheus für Metriken
  • Bau von Dashboards mit Grafana
  • Alarmierung und Incident Response für Ollama-Infrastruktur

Kostengestion und Skalierungsstrategien

  • kostenbewusste GPU-Allokation
  • Betrachtungen zur Cloud im Vergleich zu on-prem-Bereitstellungen
  • Strategien für nachhaltige Skalierung

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Erfahrung im Administrieren von Linux-Systemen
  • Verständnis von Containerisierung und Orchestration
  • Bekanntschaft mit der Bereitstellung von Machine-Learning-Modellen

Zielgruppe

  • DevOps-Ingenieure
  • ML-Infrastrukturteams
  • Ingenieure für die Sitesicherheit
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien