Schulungsübersicht

Einführung in die Multimodale KI und Ollama

  • Überblick über multimodales Lernen
  • Kernausforderungen bei der Integration von Sehen und Sprache
  • Funktionen und Architektur von Ollama

Einstellung der Ollama-Umgebung

  • Installation und Konfiguration von Ollama
  • Arbeit mit lokaler Modelldeployment
  • Integration von Ollama mit Python und Jupyter

Arbeiten mit Multimodalen Eingaben

  • Integration von Text und Bildern
  • Einbeziehung von Audio und strukturierten Daten
  • Gestaltung von Vorverarbeitungspipelines

Anwendungen für Dokumentenverständnis

  • Auslesen strukturierter Informationen aus PDFs und Bildern
  • Kombinieren von OCR mit Sprachmodellen
  • Erstellen intelligenter Dokumentenanalyseworkflows

Visuelle Frage-Antwort (VQA)

  • Einstellung von VQA-Datensätzen und Benchmarks
  • Ausbilden und Evaluieren multimodaler Modelle
  • Erstellen interaktiver VQA-Anwendungen

Gestaltung multimodalischer Agents

  • Prinzipien der Agentengestaltung mit multimodalem Denken
  • Kombinieren von Wahrnehmung, Sprache und Handlung
  • Einsatz von Agents für realweltige Anwendungsfälle

Erweiterte Integration und Optimierung

  • Fehlerschleifenmultimodale Modelle mit Ollama
  • Optimieren der Inferenzperformance
  • Skalierbarkeit und Überlegungen zur Deployment

Zusammenfassung und nächste Schritte

Voraussetzungen

  • Festes Verständnis der Konzepte des maschinellen Lernens
  • Erfahrung mit Tiefenlernen-Frameworks wie PyTorch oder TensorFlow
  • Bekanntschaft mit Sprachverarbeitung und Computervision

Zielgruppe

  • Machine-Learning-Ingenieure
  • KI-Forscher
  • Produktentwickler, die Sehen und Text-Workflow integrieren
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien