Die Einführung von ChatGPT hat zu einem verstärkten Interesse an Künstlicher Intelligenz (KI) und maschinellem Lernen geführt. Insbesondere im Bereich der KI-Stimmen versprechen viele Anbieter, dass ihre künstlichen Stimmen nicht von echten Stimmen zu unterscheiden sind. Allerdings zeigt sich bei der Nutzung von KI-Stimmen wie „Adam“, dass diese noch nicht die Fähigkeit besitzen, den Inhalt eines Textes mit passender Betonung und Gefühlen anzureichern, was zu einem monotonen und künstlichen Klang führt.
Die Wahrheit über KI-Stimmen: Keine echte Intelligenz, sondern maschinelles Lernen
Künstliche Intelligenz (KI) wird oft als Etikettenschwindel betrachtet, da sie wenig mit echter Intelligenz zu tun hat. Stattdessen basiert sie auf maschinellem Lernen, bei dem Sprachmodelle trainiert werden, Stimmen mithilfe von Tausenden Stunden Audiomaterial zu simulieren. Obwohl KI-Stimmen den reinen Inhalt eines Textes wiedergeben können, fehlt es ihnen an der Fähigkeit, Diktion, Betonungen und Emotionen richtig zu interpretieren und dem Text anzupassen.
Künstliche Intelligenz (KI) ermöglicht es heutzutage, Texte vorzulesen. Allerdings stoßen KI-Stimmen an Grenzen, wenn es um die Anpassung von Betonungen und Emotionen geht. Sie können den reinen Inhalt eines Textes transportieren, sind jedoch nicht in der Lage, ihn mit der passenden Betonung und den entsprechenden Gefühlen anzureichern. Das Ergebnis ist ein monotoner und künstlicher Klang. Das Problem liegt in der fehlenden Diktion und Tonalität, was die Interpretation des gesprochenen Textes betrifft.
Der Grund dafür, dass künstliche Intelligenz (KI) Schwierigkeiten mit dem Textverständnis hat, liegt vor allem daran, dass ihr persönliche Erfahrungen fehlen, die die Interpretation beeinflussen könnten. Ein einfacher Satz wie „Wie siehst du denn aus?“ kann je nach Kontext verschiedene Emotionen erfordern. Zum Beispiel kann Empörung entstehen, wenn der Protagonist in Shorts und Adiletten zum Opernabend erscheint, oder Sorge, wenn der Darsteller blass und mit blutunterlaufenen Augen vor der Oper steht, wie Hierstetter erklärt.
Aktuell ist es für Künstliche Intelligenz (KI) nicht möglich, den sogenannten Subtext eines Textes darzustellen. Der Subtext bezieht sich auf die implizite Bedeutung eines Textes, die erst durch die passende Betonung ersichtlich wird. Sogar erfahrene Schauspieler und Sprecher haben Schwierigkeiten, den Subtext direkt über ihre Stimme überzeugend zu transportieren. In solchen Fällen ist die Unterstützung eines Regisseurs von großer Bedeutung.
KI-Stimmen stoßen auf Schwierigkeiten, komplexe Regieanweisungen umzusetzen. Wenn Sie einer KI-Stimme sagen: „Sei etwas abgehoben, aber immer noch nahbar“, könnte sie Schwierigkeiten haben, diese Anweisungen korrekt zu interpretieren und umzusetzen. Darüber hinaus fehlt KI-Stimmen die Fähigkeit, den Abschluss eines Textes in Echtzeit anzupassen, was zu einer Diskrepanz zwischen der gewünschten und der tatsächlichen Darstellung führen kann.
Obwohl sich KI-Stimmen rasch weiterentwickeln, ist Hierstetter skeptisch, dass diese Herausforderungen in naher Zukunft gelöst werden können. Fortschritte sind zweifellos zu erwarten, und die Stimmen werden menschlicher klingen. Dennoch besteht nach wie vor das Problem von falschen Betonungen oder sogar fehlenden Betonungen, was besonders bei längeren Texten zu einer monotonen und künstlichen Klangwiedergabe führen kann.
Die Verwendung von Audiomaterial ohne ausreichende Verwertungsrechte kann zu rechtlichen Problemen führen. Ein Beispiel dafür ist der Fall von Bev Standing, einer kanadischen Sprecherin, deren Stimme unerlaubt in TikTok-Videos verwendet wurde. Standing hat TikTok erfolgreich verklagt, da ihre Stimme ohne ihre Zustimmung verwendet wurde. Es ist daher von großer Bedeutung, sicherzustellen, dass bei der Verwendung von KI-Stimmen die erforderlichen Rechte eingeholt wurden, um mögliche rechtliche Konflikte zu vermeiden.
bodalgo.com ist seit 15 Jahren die erste Anlaufstelle für Unternehmen, die eine geeignete Stimme für ihre Projekte benötigen. Die Online-Casting-Plattform bietet eine breite Auswahl an professionellen Sprechern für Werbung, E-Learning und Image-Filme. Mit einer Erfahrung von knapp 60.000 Castings hat sich bodalgo.com als vertrauenswürdiger Partner bewiesen.
Die Nutzung von Künstlicher Intelligenz (KI) zur Erzeugung von Stimmen ist für die Zukunft der Plattform bodalgo.com kein relevantes Thema. Allerdings setzen sie bereits heute KI erfolgreich in anderen Bereichen ein, wie beispielsweise bei der Transkription von Videos und Audios mit bodalgoScripta. Hierbei erzielt KI bereits sehr gute Ergebnisse. Dennoch werden KI-Stimmen noch für eine längere Zeit keine echte Konkurrenz für professionelle Sprecher darstellen.
Produktionsstudios bevorzugen normalerweise echte Sprecher und vermeiden den Einsatz von künstlichen Stimmen. Es gibt jedoch bemerkenswerte Ausnahmen, wie zum Beispiel bei den neuen Folgen von Pumuckl. Hier wurde die Stimme des Synchronsprechers Maxi Schafroth mithilfe von KI so bearbeitet, dass sie dem verstorbenen Hans Clarin ähnlich klingt, der dem Kobold Pumuckl über 30 Jahre lang seine Stimme lieh.
Derzeit sind KI-Stimmen noch nicht in der Lage, die Vorteile professioneller Sprecher zu bieten. Sie können Texte nicht richtig interpretieren und Betonungen sowie Emotionen nicht angemessen anpassen, was zu einem monotonen und unnatürlich klingenden Ergebnis führt. Zudem fehlt ihnen echtes Textverständnis und die Fähigkeit, den Subtext eines Textes zu transportieren. Obwohl es Fortschritte in der Entwicklung von KI-Stimmen gibt, sind sie vorerst keine ernsthafte Konkurrenz für professionelle Sprecher.