Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in die Multimodale KI und Ollama
- Überblick über multimodales Lernen
- Kernausforderungen bei der Integration von Sehen und Sprache
- Funktionen und Architektur von Ollama
Einstellung der Ollama-Umgebung
- Installation und Konfiguration von Ollama
- Arbeit mit lokaler Modelldeployment
- Integration von Ollama mit Python und Jupyter
Arbeiten mit Multimodalen Eingaben
- Integration von Text und Bildern
- Einbeziehung von Audio und strukturierten Daten
- Gestaltung von Vorverarbeitungspipelines
Anwendungen für Dokumentenverständnis
- Auslesen strukturierter Informationen aus PDFs und Bildern
- Kombinieren von OCR mit Sprachmodellen
- Erstellen intelligenter Dokumentenanalyseworkflows
Visuelle Frage-Antwort (VQA)
- Einstellung von VQA-Datensätzen und Benchmarks
- Ausbilden und Evaluieren multimodaler Modelle
- Erstellen interaktiver VQA-Anwendungen
Gestaltung multimodalischer Agents
- Prinzipien der Agentengestaltung mit multimodalem Denken
- Kombinieren von Wahrnehmung, Sprache und Handlung
- Einsatz von Agents für realweltige Anwendungsfälle
Erweiterte Integration und Optimierung
- Fehlerschleifenmultimodale Modelle mit Ollama
- Optimieren der Inferenzperformance
- Skalierbarkeit und Überlegungen zur Deployment
Zusammenfassung und nächste Schritte
Voraussetzungen
- Festes Verständnis der Konzepte des maschinellen Lernens
- Erfahrung mit Tiefenlernen-Frameworks wie PyTorch oder TensorFlow
- Bekanntschaft mit Sprachverarbeitung und Computervision
Zielgruppe
- Machine-Learning-Ingenieure
- KI-Forscher
- Produktentwickler, die Sehen und Text-Workflow integrieren
21 Stunden