Amazon Automated Dub verwendet AI, um Videos in Fremdsprachen zu synchronisieren

Mit der Popularität so vieler Streaming-Plattformen werden Inhalte immer vielfältiger und unterschiedlicher. Immer mehr Leute schauen sich fremdsprachige Shows wie "Money Heist" und "Dark" an, da sie gute Shows sind und weltweit verfügbar sind. Einige von uns sehen unsere Shows jedoch gerne in einer Sprache, die wir verstehen. Manchmal reichen Untertitel nicht aus. Allerdings kann das Überspielen ausländischer Shows in eine andere Sprache für Produktionsfirmen zeitaufwändig und teuer werden. Dies ist der Hauptgrund, warum viele Shows nicht in Fremdsprachen synchronisiert werden. Nun, Amazon-Forscher haben möglicherweise eine Lösung für dieses Problem.

In einem auf dem Pre-Print-Server Arxiv.org veröffentlichten Artikel haben Amazon-Forscher eine neue „Speech-to-Speech“ -Technologie theoretisiert und getestet. Es benutzt KI, um die ursprüngliche Sprache in eine übersetzte Sprache umzuwandeln und die übersetzte Sprache zu verfeinern, damit sie menschlicher klingt. Dies ist nur ein erster Schritt zur Entwicklung einer einfacheren und viel billigeren Methode zum Überspielen von Shows und Filmen.

Wie es funktioniert

Diese "Speech-to-Speech" -Technologie ist viel komplizierter als es sich anhört. Das Übersetzen einer Originalrede in eine Fremdrede unter Verwendung von Computern ist eine hektische Aufgabe. Es wird nicht nur aus der Audio-Ressource eine Sprache in eine andere übersetzt, sondern es sind mehrere Schritte erforderlich.
Der automatisierte Überspielvorgang umfasst im Wesentlichen 3 Schritte. Zunächst muss die ursprüngliche Sprache in ein Textformat konvertiert werden. Der zweite Schritt beinhaltet die Übersetzung des Textes in die gewünschte Sprache. Schließlich generiert der übersetzte Text die neue Sprache.

Nun gibt es Komplikationen bei der Entwicklung der neuen Sprache aus dem übersetzten Text in Sprache. Die übersetzte Sprache sollte der Geschwindigkeit und Emotion der ursprünglichen Sprache entsprechen. Es sollte auch die Hintergrundgeräusche tragen und den Nachhall beseitigen.

Damit dieser komplizierte Prozess funktioniert, haben Amazon-Forscher dies bestätigt Ihre Speech-to-Speech-Technologie wurde an mehr als 150 Millionen englisch-italienischen Paaren geschult der Phrase, um die Geschwindigkeit eines Sprachsegments der übersetzten Sprache zu bestimmen, um der Geschwindigkeit der ursprünglichen Sprache zu entsprechen. Dieser Schritt stellt sicher, dass die Pausen und Unterbrechungen in der übersetzten Sprache mit der ursprünglichen Sprache übereinstimmen.

Ein Modell in der Text-zu-Sprache-Phase hat 47 Stunden Sprachaufzeichnung trainiert. Dieses Modell generiert eine Kontextsequenz aus dem Text, der in einen vorab trainierten Vocoder eingespeist wird, der die Sequenz in eine Sprachwellenform umwandelt.

Diese Technologie ist auch in der Lage, Hintergrundgeräusche aus dem Original-Audio zu extrahieren und in das übersetzte Audio einzufügen, um es dem Original-Audio ähnlicher zu machen. Zuletzt wird ein separater Schritt, der als Nachhallschritt bezeichnet wird, angewendet, um den Nachhall des Originalaudios zum übersetzten hinzuzufügen.

Wird es nützlich sein??

Der Prozess ist sicherlich kompliziert, aber die Forscher schrieben, dass ihre zukünftige Arbeit den Verbesserungen der automatischen Synchronisation gewidmet sein wird. Es kann die Notwendigkeit für Sprachschauspieler beseitigen, eine Show oder einen Film in eine andere Sprache zu synchronisieren. Das Überspielen von Inhalten in die gewünschte Sprache wird weniger zeitaufwändig und viel billiger. Und ja, es wird den Produktionshäusern zugute kommen, den Zuschauern mehr Shows und Filme zu liefern, indem die Liste viel vielfältiger gestaltet wird.