Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Überblick über Speech Recognition Technologien
- Geschichte und Entwicklung der Spracherkennung
- Akustische Modelle, Sprachmodelle und Decodierung
- Moderne Architekturen: RNNs, Transformer und Whisper
Audio-Vorverarbeitung und Grundlagen der Transkription
- Umgang mit Audioformate und Abtastraten
- Reinigen, Kürzen und Aufteilen von Audiodateien
- Erstellen von Text aus Audio: Echtzeit vs. Batchverarbeitung
Praxis mit Whisper und anderen APIs
- Installieren und Verwenden von OpenAI Whisper
- Aufrufen von Cloud-APIS (Google, Azure) für Transkription
- Vergleich von Leistung, Latenz und Kosten
Sprachen, Akzente und Domänenanpassung
- Arbeiten mit mehreren Sprachen und Akzenten
- Benutzerdefinierte Vokabulare und Geräuschtoleranz
- Umgang mit rechtlichen, medizinischen oder technischen Sprachstilen
Ausgabeformatierung und Integration
- Hinzufügen von Zeitstempeln, Interpunktion und Sprecher-Labels
- Exportieren in Text-, SRT- oder JSON-Formate
- Integration der Transkriptionen in Anwendungen oder Datenbanken
Use Case Implementierungslabs
- Transkribieren von Meetings, Interviews oder Podcasts
- Sprach-basierte Kommando-Systeme
- Echtzeit-Untertitel für Videostreams/Audiostreams
Evaluation, Grenzen und Ethik
- Genauigkeitsmetriken und Modellbewertung
- Bias und Fairness in Sprachmodellen
- Überlegungen zur Datenschutz- und Vorschriftenkonformität
Zusammenfassung und Nächste Schritte
Voraussetzungen
- Ein Grundverständnis von allgemeinen AI- und maschinellem Lernen-Konzepten
- Familiär mit Audio- oder Mediendateiformaten und -tools
Zielgruppe
- Datenwissenschaftler und AI-Ingenieure, die mit Stimmdaten arbeiten
- Softwareentwickler von transkriptionbasierten Anwendungen
- Organisationen, die Spracherkennung für Automatisierung erkunden
14 Stunden