Schulungsübersicht

Überblick über Spracherkennungstechnologien

  • Geschichte und Entwicklung der Spracherkennung
  • Akustische Modelle, Sprachmodelle und Decoding
  • Moderne Architekturen: RNNs, Transformer und Whisper

Grundlagen der Audiodatenbearbeitung und Transkription

  • Bearbeitung von Audioformaten und Abtastraten
  • Reinigen, kürzen und segmentieren von Audiodateien
  • Erzeugen von Text aus Audio: Echtzeit vs. Batchverarbeitung

Praktische Arbeit mit Whisper und anderen APIs

  • Installieren und Verwenden von OpenAI Whisper
  • Aufrufen von Cloud-APIs (Google, Azure) für Transkriptionen
  • Vergleich der Leistung, Latenz und Kosten

Sprache, Akzente und Domänenanpassung

  • Arbeiten mit mehreren Sprachen und Akzenten
  • Anpassung der Wortschatze und Toleranz gegenüber Störgeräuschen
  • Bearbeitung von rechtlichen, medizinischen oder technischen Fachbegriffen

Ausgabeformatierung und Integration

  • Hinzufügen von Zeitauszeichnungen, Interpunktionszeichen und Sprechernamen
  • Exportieren in Text-, SRT- oder JSON-Formate
  • Integrieren von Transkriptionen in Anwendungen oder Datenbanken

Implementierungslab für Anwendungsfälle

  • Transkribieren von Meetings, Interviews oder Podcasts
  • Sprach-zu-Text-Befehlssysteme
  • Echtzeit-Untertitelung für Video- und Audiostreams

Evaluation, Grenzen und Ethik

  • Genauigkeitsmetriken und Modell-Benchmarking
  • Bias und Fairness in Sprachmodellen
  • Datenschutz- und Compliance-Aspekte

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Grundverständnis von allgemeinen KI- und maschinellen Lernkonzepten
  • Vertrautheit mit Audiodateiformaten und -werkzeugen

Zielgruppe

  • Datenwissenschaftler und KI-Ingenieure, die mit Sprachdaten arbeiten
  • Softwareentwickler, die transkriptionsbasierte Anwendungen erstellen
  • Organisationen, die sich mit der Spracherkennung für Automatisierungsprozesse befassen
 14 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien