Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
KI-Souveränität und lokale Bereitstellung von LLMs
- Risiken von Cloud-LLMs: Datenspeicherung, Training auf Eingaben, ausländische Rechtsprechung.
- Ollama-Architektur: Modellserver, Registry und OpenAI-kompatible API.
- Vergleich mit vLLM, llama.cpp und Text Generation Inference.
- Modell-Lizenzen: Bedingungen für Llama, Mistral, Qwen und Gemma.
Installation und Hardware-Einrichtung
- Installation von Ollama auf Linux mit CUDA- und ROCm-Unterstützung.
- CPU-Only-Fallback und AVX/AVX2-Optimierung.
- Docker-Bereitstellung und persistentes Volume-Mapping.
- Multi-GPU-Einrichtung und Strategien zur VRAM-Zuweisung.
Modell-Management
- Abrufen von Modellen aus dem Ollama-Registry: ollama pull llama3.
- Importieren von GGUF-Modellen von HuggingFace und TheBloke.
- Quantisierungsstufen: Abwägungen zwischen Q4_K_M, Q5_K_M und Q8_0.
- Modellauswahl und Begrenzungen beim gleichzeitigen Laden von Modellen.
Benutzerdefinierte Modelfiles
- Schreiben der Modelfile-Syntax: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Anpassung von Temperatur, top_p und repeat_penalty.
- System-Prompt-Engineering für rollenspezifisches Verhalten.
- Erstellen und Veröffentlichen benutzerdefinierter Modelle im lokalen Registry.
API-Integration
- OpenAI-kompatibles /v1/chat/completions-Endpunkt.
- Streaming-Antworten und JSON-Modus.
- Integration mit LangChain, LlamaIndex und benutzerdefinierten Apps.
- Authentifizierung und Ratenbegrenzung mit Reverse-Proxy.
Leistungsoptimierung
- Größe des Kontextfensters und KV-Cache-Verwaltung.
- Batch-Inferenz und parallele Anfrageverarbeitung.
- CPU-Thread-Zuweisung und NUMA-Bewusstsein.
- Überwachung der GPU-Auslastung und des Speicherdrucks.
Sicherheit und Compliance
- Netzwerkisolierung für Modell-Serving-Endpunkte.
- Eingabe-Filterung und Ausgabe-Moderation-Pipelines.
- Audit-Logging von Prompts und Vervollständigungen.
- Modell-Herkunft und Hash-Verifizierung.
Voraussetzungen
- Kenntnisse in der Linux- und Containerverwaltung auf mittlerem Niveau.
- Grundlegendes Verständnis von maschinellem Lernen und Transformer-Modellen auf hoher Ebene.
- Vertrautheit mit REST-APIs und JSON.
Zielgruppe
- KI-Ingenieure und Entwickler, die Cloud-LLM-APIs ersetzen.
- Organisationen mit sensiblen Daten, die die Nutzung von Cloud-Modellen verhindern.
- Regierungs- und Verteidigungsteams, die luftgetrennte (air-gapped) Sprachmodelle erfordern.
14 Stunden