Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in Sprachsynthese und Stimmenklonen
- Überblick über Text-to-Speech (TTS) und neuronale Stimm-Synthese
- Stimmenklonen versus Spracherzeugung: Anwendungsfälle und Grenzen
- Wichtige Modelle: Tacotron, WaveNet, FastSpeech, VITS
Arbeit mit kommerziellen Plattformen
- Nutzung von ElevenLabs und Resemble AI
- Erstellen, Klonen und Bearbeiten von Stimmen
- API-Zugriff und Text-to-Speech-Arbeitsabläufe
Entwicklung mit Open-Source-Tools
- Installation und Konfiguration von Coqui TTS
- Training benutzerdefinierter Stimmen und Verwaltung von Datensätzen
- Generierung von Sprache mit feiner Kontrolle (Tonhöhe, Geschwindigkeit, Emotion)
Datenvorbereitung und Verwaltung von Stimmdatensätzen
- Sammeln und Bereinigen von Sprachproben
- Segmentierung, Beschriftung und Ausrichtung von Transkripten
- Ethische Beschaffung und Einwilligung zur Nutzung der Stimme
Anwendungsintegration
- Einbetten von TTS in Websites und Anwendungen
- Aufbau von IVR-Systemen und interaktiven Bots
- Generierung synthetischer Dialoge für Videos und Spiele
Bewertung von Qualität und Realismus
- MOS (Mean Opinion Score) und Verständlichkeitstests
- Steuerung der Ausdrucksstärke und Prosodie
- Vergleich von Latenz, Wiedergabetreue und Realismus
Ethische, rechtliche und governance-bezogene Aspekte
- Risiken durch Deepfakes und verantwortungsvoller Umgang
- Einwilligung, Nennung des Urhebers und Urheberrechtsfragen
- Vorschriften und organisationsinterne Richtlinien
Zusammenfassung und nächste Schritte
Voraussetzungen
- Verständnis der Grundlagen des maschinellen Lernens
- Vertrautheit mit Audiodateiformaten und Bearbeitungstools
- Grundkenntnisse in der Python-Programmierung
Zielgruppe
- KI-Entwickler und Ingenieure, die sich für Sprachsynthese interessieren
- Content-Ersteller und Medientechniker, die die Stimmgenerierung erkunden
- F&E-Teams (Forschung und Entwicklung), die personalisierte oder dynamische Audiosysteme aufbauen
14 Stunden