Kontakt aufnehmen

Schulungsübersicht

Überblick über Spracherkennungstechnologien

  • Geschichte und Entwicklung der Spracherkennung
  • Akustische Modelle, Sprachmodelle und Decodierung
  • Moderne Architekturen: RNNs, Transformer und Whisper

Audiovorverarbeitung und Grundlagen der Transkription

  • Umgang mit Audioformaten und Abtausraten
  • Bereinigung, Trimmen und Segmentierung von Audio
  • Generierung von Text aus Audio: Echtzeit vs. Batchverarbeitung

Praktische Arbeit mit Whisper und anderen APIs

  • Installation und Nutzung von OpenAI Whisper
  • Aufruf von Cloud-APIs (Google, Azure) zur Transkription
  • Vergleich von Leistung, Latenz und Kosten

Sprachen, Akzente und Domänenanpassung

  • Umgang mit mehreren Sprachen und Akzenten
  • Eigene Vokabulare und Toleranz gegenüber Hintergrundgeräuschen
  • Verarbeitung von juristischen, medizinischen oder technischen Fachsprachen

Formatierung des Outputs und Integration

  • Hinzufügen von Zeitstempeln, Interpunktion und Sprecherkennungen
  • Exportieren in Text-, SRT- oder JSON-Formate
  • Integration von Transkripten in Anwendungen oder Datenbanken

Praxislabs zu Use Cases

  • Transkription von Meetings, Interviews oder Podcasts
  • Sprachsteuerungssysteme
  • Live-Untertitel für Video-/Audio-Streams

Bewertung, Einschränkungen und Ethik

  • Genauigkeitsmetriken und Modell-Benchmarking
  • Voreingenommenheit und Fairness in Spracherkennungsmodellen
  • Datenschutz- und Compliance-Aspekte

Zusammenfassung und nächste Schritte

Voraussetzungen

  • Grundkenntnisse in allgemeinen KI- und MaschinellLern-Konzepten
  • Vertrautheit mit Audio- oder Mediendateiformaten und -tools

Zielgruppe

  • Datenwissenschaftler und KI-Ingenieure, die mit Sprachdaten arbeiten
  • Softwareentwickler, die transkriptionsbasierte Anwendungen entwickeln
  • Organisationen, die Spracherkennung zur Automatisierung evaluieren
 14 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien