Stimmen-KI
Voice Cloning & Text-to-Speech mit ElevenLabs
Echte menschliche Stimmen aus Text generieren. Für Podcasts, Hörbücher, Voiceovers und mehr.
Die ElevenLabs-Oberfläche
Von Text zur natürlichen Sprache – die wichtigsten Bereiche im Überblick
Wähle aus Bibliothek oder nutze dein Voice Clone
Gib den Text ein, der gesprochen werden soll
Stabilität und Klarheit für natürlichen Klang
Anhören und als MP3/WAV herunterladen
Über ElevenLabs
Was ist Voice AI?
Voice AI (Stimmen-Künstliche Intelligenz) ermöglicht es, aus geschriebenem Text natürlich klingende menschliche Sprache zu generieren. ElevenLabs ist führend in diesem Bereich und bietet erstaunlich realistische Stimmen, die kaum noch von echten Menschen zu unterscheiden sind.
Anwendungsbereiche
- Podcasts: Intro/Outro-Sprecher, Werbe-Einspieler, komplette Episoden
- Hörbücher: Audiobook-Produktion ohne Studio und Sprecher
- Voiceovers: Erklärvideos, Präsentationen, E-Learning-Inhalte
- Gaming: NPC-Dialoge, Charakter-Stimmen
- Barrierefreiheit: Texte für Sehbehinderte vorlesen
Preismodell
🆓 Free
- 10.000 Zeichen/Monat
- 3 benutzerdefinierte Stimmen
- API-Zugriff (begrenzt)
- Attribution erforderlich
🚀 Starter
- 30.000 Zeichen/Monat
- 10 benutzerdefinierte Stimmen
- Instant Voice Cloning
- Keine Attribution
🎨 Creator
- 100.000 Zeichen/Monat
- 30 benutzerdefinierte Stimmen
- Professional Voice Cloning
- Projects für lange Audio
💼 Pro
- 500.000 Zeichen/Monat
- 160 benutzerdefinierte Stimmen
- Höchste Audio-Qualität
- Priorisierter Support
Features im Überblick
Text-to-Speech (TTS)
Wandle beliebigen Text in natürliche Sprache um. Mehrere Sprachen und Akzente verfügbar.
Speech-to-Speech (STS)
Nimm deine Stimme auf und wandle sie in eine andere Stimme um – mit Beibehaltung von Emotion und Tonfall.
Voice Cloning
Instant Cloning mit 1 Minute Audio oder Professional Cloning mit 30+ Minuten für höchste Qualität.
Voice Library
Tausende vorgefertigte Stimmen der Community. Filtere nach Geschlecht, Alter, Akzent und Stil.
Projects
Erstelle lange Audio-Dateien (Hörbücher, Podcasts) mit Kapitel-Unterteilung und Batch-Generierung.
API-Zugriff
Integriere ElevenLabs in deine Anwendungen. REST API mit umfangreicher Dokumentation.
Voice Cloning Guide
Anforderungen an Audio-Samples
Für erfolgreiches Voice Cloning brauchst du hochwertiges Ausgangsmaterial:
- Instant Cloning: Mindestens 1 Minute klare Sprache
- Professional Cloning: 30+ Minuten diverses Material
- Qualität: Mindestens 44.1kHz, keine Kompression
- Raum: Kein Hall, keine Hintergrundgeräusche
- Mikrofon: Gute Qualität (USB-Mic minimum, XLR bevorzugt)
• Halte 15-20cm Abstand zum Mikrofon
• Vermeide Plosive (P-, T-, B-Laute) mit einem Pop-Filter
• Spreche natürlich und variiere den Tonfall
Instant vs Professional Cloning
⚡ Instant Cloning
Schnell (Minuten), gute Qualität, ideal für Prototypen und persönliche Projekte. Erfordert nur kurze Samples.
🎨 Professional Cloning
Längere Verarbeitung, Studio-Qualität, perfekt für kommerzielle Projekte. Braucht ausgiebiges Material.
Schritt-für-Schritt Anleitung
-
Account erstellen
Melde dich bei elevenlabs.io an und wähle dein Preismodell. -
Zu "Voices" navigieren
Klicke auf "Add Voice" und wähle "Instant Voice Cloning" oder "Professional Voice Cloning". -
Audio hochladen
Lade deine Audio-Dateien hoch. Achte auf die Mindestanforderungen. -
Name vergeben
Gib deiner Stimme einen eindeutigen Namen für die spätere Verwendung. -
Testen
Generiere erste Test-Samples und passe die Voice Settings an.
Audio-Qualität optimieren
- Verwende verlustfreie Formate (WAV, FLAC) statt MP3
- Entferne Stille am Anfang und Ende mit Audacity
- Normalisiere die Lautstärke auf -3dB
- Vermeide Clipping und Übersteuerung
- Bei mehreren Dateien: Einheitliche Lautstärke und Klangfarbe
Prompting für Stimmen
Voice Settings verstehen
🎛️ Stability
Höhere Werte = konsistentere Stimme, aber monotoner. Niedrigere Werte = expressiver, aber variabler.
🔊 Clarity + Similarity
Klare Stimme vs. ähnlicher Klang zum Original. Balance je nach Anwendung finden.
🎨 Style
Erhöht den Ausdruck, kann aber zu Instabilität führen. Vorsichtig verwenden.
🎭 Speaker Boost
Verbessert die Ähnlichkeit zum Original-Sprecher. Empfohlen für Voice Cloning.
Pronunciation Optimization
ElevenLabs versteht phonetische Markierungen. Für schwierige Wörter oder Namen kannst du die Aussprache steuern:
SSML-Support
ElevenLabs unterstützt SSML (Speech Synthesis Markup Language) für fortgeschrittene Kontrolle:
- <break time="500ms"/> – Pausen einfügen
- <emphasis>wichtig</emphasis> – Betonung
- <prosody rate="slow">langsam</prosody> – Sprechgeschwindigkeit
Emotionen und Tonfall steuern
Mit speziellen Tags kannst du Emotionen direkt im Text steuern:
• [excited] Ich kann es kaum erwarten!
• [sad] Das tut mir wirklich leid.
• [shouting] Pass auf!
• [softly] Komm hierher...
• Nutze Satzzeichen für natürliche Pausen
• Teste verschiedene Stability-Einstellungen
• Speichere erfolgreiche Settings als Preset
Ethik & Verantwortung
Wann ist Voice Cloning ethisch?
Voice Cloning ist ein mächtiges Tool – mit großer Macht kommt große Verantwortung. Hier sind die Grundsätze für ethischen Einsatz:
- Eigene Stimme: Du darfst deine eigene Stimme klonen und verwenden
- Einwilligung: Andere Personen müssen der Nutzung ihrer Stimme zustimmen
- Transparenz: Hörende sollten wissen, dass sie einer KI-Stimme lauschen
- Kontext: Satire und Parodie haben andere Regeln als kommerzielle Nutzung
Einwilligung und Rechte
Bevor du eine fremde Stimme klonst:
- Schriftliche Einwilligung der Person einholen
- Nutzungsrechtvereinbarung erstellen (wo, wie lange, welche Zwecke)
- Bei kommerzieller Nutzung: Rechtsberatung einholen
- Stimmen von Minderjährigen besonders schützen
Wasserzeichen und Verifizierung
ElevenLabs fügt allen generierten Audios ein unauslöschbares Wasserzeichen hinzu. Dies ermöglicht die Identifikation von KI-generierten Inhalten – auch nach Formatänderungen oder Bearbeitung.
Alternativen zu ElevenLabs
🎵 Play.ht
Starke Alternative mit guter Voice-Cloning-Qualität. Integriert sich gut in Workflows.
🎙️ Murf.ai
Fokus auf E-Learning und Präsentationen. Einfache Bedienung, gute Studio-Integration.
📝 Descript Overdub
Perfekt für Podcast-Produktion. Ermöglicht Text-basierte Audio-Bearbeitung.
☁️ Microsoft Azure TTS
Enterprise-Lösung mit erstklassiger Skalierung. Ideal für große Projekte.