Wie funktionieren Audio-Deepfakes?
Audio-Deepfakes werden durch fortschrittliche KI-Methoden erzeugt. Das Speech-to-Speech-Verfahren analysiert Sprachproben und wandelt sie in Text um, den die KI dann wieder in Sprache zurückübersetzt. Beim Text-to-Speech-Verfahren hingegen wird die KI direkt mit Text „gefüttert“, den sie auf Basis vieler Sprachbeispiele in menschlich klingende Sprache übersetzt. Diese Technologien kommen bereits in verschiedenen Anwendungen zum Einsatz, wie z.B. bei Screen Readern oder Telefonsystemen.
Anwendungsbeispiele und Risiken
Ein bemerkenswertes Beispiel für Audio-Deepfakes ist das Gespräch eines US-amerikanischen Podcasters mit dem verstorbenen Apple-Mitbegründer Steve Jobs – entstanden durch KI. Solche Technologien könnten in der Bildung oder in Museen genutzt werden, um historische Figuren zum Leben zu erwecken. Dennoch besteht die Gefahr der Manipulation und Desinformation, wenn prominente Stimmen für falsche Aussagen verwendet werden.
Die menschliche Stimme und ihre Einzigartigkeit
Die menschliche Stimme ist einzigartig und wird durch verschiedene Faktoren wie die Beschaffenheit der Resonanzräume im Kopf, Zahnstellung, Zungengröße und Lippenform geprägt. KI-Systeme sind zwar in der Lage, diese Nuancen nachzuahmen, doch die Technologie dahinter ist komplex und noch nicht vollkommen ausgereift.
Fazit: Vertrauen in das Gehör
Trotz der faszinierenden Möglichkeiten von Audio-Deepfakes sollten wir weiterhin kritisch bleiben und die Quellen von Audioinhalten hinterfragen. Für eine zuverlässige Überprüfung von Audiomaterial nutzen Forscher Methoden wie die Codeanalyse. Zudem ist gutes Hören unerlässlich für die Teilnahme am täglichen Leben. Wenn Sie Schwierigkeiten beim Hören haben, empfehlen wir einen Hörtest bei uns oder HNO-Arzt zu machen.
Quelle: https://www.ihr-hoergeraet.de/audio-deepfakes/