Skip to main content

Wie weit die maschinelle Übersetzung gekommen ist (und wohin sie noch gehen wird)

Erst im letzten Jahrzehnt hat die künstliche Intelligenz (KI) der maschinellen Übersetzung Quantensprünge ermöglicht. Computer sind heute in der Lage, Sprache mit größerer Genauigkeit und Effizienz zu übersetzen als je zuvor. Noch faszinierender ist jedoch, wie sich die maschinelle Übersetzung entwickelt hat, um mit Menschen und anderen Technologien in Symbiose zu interagieren. Diese neue Entwicklung hat den Zugang zu Produkten, Dienstleistungen und Wissen demokratisiert, sodass Menschen unabhängig von ihrer Sprache das bekommen, was sie brauchen.

In diesem Blogbeitrag werfen wir einen Blick auf die Reise der maschinellen Übersetzung, ihren aktuellen Stand an der Spitze der Sprachtechnologien und ihre potenzielle Fähigkeit, die Zukunft zu verändern.

Frühe Frameworks für maschinelle Übersetzung

In den späten 1980er und frühen 1990er Jahren machte die maschinelle Übersetzung einen bedeutenden Fortschritt, als die Forschung von der regelbasierten maschinellen Übersetzung (RBMT) zur statistischen maschinellen Übersetzung (t) überging. Bei dieser Methode werden die Ähnlichkeiten zwischen parallelen Texten in verschiedenen Sprachen analysiert und die dabei entstehenden Muster notiert. Die SMT-Forschung wurde durch die Veröffentlichung fortschrittlicherer Computer mit höherer Rechenleistung beschleunigt.

Obwohl diese Technologie in den letzten Jahrzehnten durch mehrere Iterationen verfeinert wurde (wortbasiertes SMT, phrasenbasiertes SMT, syntaxbasiertes SMT), stößt sie immer noch an ihre Grenzen. In Sprachen, in denen die Reihenfolge der Wörter flexibel ist, wie beispielsweise Portugiesisch, haben SMT-Systeme Schwierigkeiten, genaue Übersetzungen zu erstellen.

Heute haben führende Unternehmen für maschinelle Übersetzung von SMT auf die enormen Möglichkeiten der neuronalen maschinellen Übersetzung (NMT) umgestellt.

Ein Durchbruch für die maschinelle Übersetzung

Im Jahr 2014 stellte eine Reihe von Forschungsarbeiten die Welt der maschinellen Übersetzung auf den Kopf. Sie waren die ersten wissenschaftlichen Arbeiten, die darlegten, dass neuronale Netze die maschinelle Übersetzung zu völlig neuen Höhen führen könnten. Mehrere führende Technologieunternehmen machten sich schnell an die Arbeit, darunter auch Google. Im Jahr 2016 kündigten sie das Google Neural Machine Translation System an, das ein künstliches neuronales Netzwerk mit der Fähigkeit zum Tiefenlernen nutzt, um die Qualität von Google Translate erheblich zu verbessern.

Ein NMT-System trainiert sich selbst mit von Menschen eingespeisten Daten, um nach und nach zu lernen und damit die Übersetzungsqualität zu verbessern. Anstatt eine Reihe individuell entwickelter Komponenten einzubeziehen, baut NMT ein großes Netzwerk auf, das in der Lage ist, Texte zu analysieren und Übersetzungen zu erstellen. Aufgrund seiner umfassenden Natur ist NMT normalerweise besser darin, Dinge wie Syntax und Ähnlichkeiten zwischen Wörtern im Vergleich zu RBMT und SMT zu erkennen.

Mehrere Mitglieder unseres Teams haben sich in den letzten zehn Jahren intensiv mit der Forschung im Bereich KI und maschinelle Übersetzung befasst und untersuchten fortgeschrittene Themen in NMT und Natural Language Processing (NLP). Als unser CTO João Graca beispielsweise als Post-Doktorand an der University of Pennsylvania forschte, entwickelte er eine neue Methode, die es ermöglichte, deskriptives Wissen während des maschinellen Lernens einzufügen und damit bisher unlösbare Probleme zu lösen.

Open-Source-Frameworks für maschinelle Übersetzung

Erst in den letzten Jahren haben hochmoderne maschinelle Übersetzungsmodelle wie MT5 von Google und XLM-R und M2M-100 von Facebook Wellen geschlagen, indem sie Open-Source-Technologie für andere KI-Experten zur Verfügung gestellt haben. Organisationen können nun auf diesen „vortrainierten“ Modellen für ihre eigenen spezifischen Zwecke und Anwendungsfälle aufbauen. Zum Beispiel hat Unbabel Modelle zur Schätzung der Übersetzungsqualität auf der Grundlage von XLM-R entwickelt und seine Forschungsergebnisse im Bereich der maschinellen Übersetzung der KI-Community zur Verfügung gestellt.

Diese Durchbrüche in NMT und NLP haben es Unbabel ermöglicht und inspiriert, unsere eigenen neuronalen Frameworks OpenKiwi (Open-Source-Qualitätsschätzung) und COMET (Crosslingual Optimized Metric for Evaluation of Translation) zur Messung der Genauigkeit und Qualität maschineller Übersetzungen in vielen verschiedenen Sprachen zu veröffentlichen. Wir glauben, dass ein Fortschritt für ein Unternehmen ein Fortschritt für alle ist, weshalb wir uns entschieden haben, OpenKiwi und COMET als Open-Source-Framework zu veröffentlichen. 

Maschinelle Übersetzung und Qualitätsschätzung

Die Qualität der maschinellen Übersetzung ist von entscheidender Bedeutung, denn sie kann über die Erfahrung eines Menschen und seine Einstellung zu den Fähigkeiten von KI entscheiden. Als die maschinelle Übersetzung noch in den Kinderschuhen steckte, ließ die wackelige Qualität die Menschen oft daran zweifeln, ob sie jemals etwas Nützliches bringen würde. Wir freuen uns, dass neugierige und entschlossene Akademiker, Wissenschaftler und Ingenieure (darunter auch einige von uns!) die Arbeit geleistet haben, um uns dahin zu bringen, wo wir heute sind.

Es ist unsere Aufgabe bei Unbabel, der maschinellen Übersetzung dabei zu helfen, ihr volles Potenzial auszuschöpfen. Heute liegt einer unserer Hauptschwerpunkte darin, die Qualitätsbewertung von Sprachübersetzungen (QE) zu verbessern, um die bestmögliche Qualität zu erreichen. Aufgrund von Fortschritten wie OpenKiwi und COMET kann unsere KI-Technologie das Vertrauen in die Genauigkeit ihrer eigenen Übersetzungen gewinnen. Wenn es der Meinung ist, dass Teile doppelt überprüft werden müssen, werden diese Wörter oder Ausdrücke von unserer mehrsprachigen Community von über 100,000 Editoren überprüft. Wir glauben, dass Human-in-the-Loop-KI der Schlüssel zur Übersetzungsqualität ist: Gute KI- QE erleichtert menschlichen Übersetzern das Leben, und ihr Feedback verbessert die Weiterentwicklung der maschinellen Übersetzung.

Die Zukunft: Verbesserung des Betriebs durch maschinelle Übersetzung

Eine der aufregendsten und leistungsstärksten Anwendungen von KI-gestützter, von Menschen verfeinerter maschineller Übersetzungstechnologie ist ihre Fähigkeit, Unternehmen bei der internationalen Expansion zu unterstützen. Da die Online-Ausgaben steigen und immer mehr Unternehmen versuchen, ihre Produkte und Dienstleistungen auf neue Märkte zu bringen, ist das Potenzial für die Globalisierung enorm. Selbst inmitten der anhaltenden Pandemie prognostiziert eine kürzlich veröffentlichte Erklärung des Internationalen Währungsfonds (IWF), dass die Weltwirtschaft im Jahr 2021 um rekordverdächtige 6% wachsen wird.

Um jedem Unternehmen die Möglichkeit zu geben, einen globalen Kundenstamm zu bedienen und eine verteilte Belegschaft zu koordinieren, sind wir Vorreiter für eine neue Art der Nutzung von KI: Language Operations (LangOps). LangOps nutzt KI neben bestehenden Tools im Technologie-Stack eines Unternehmens, sodass jede Person in jeder Sprache kommunizieren kann. In naher Zukunft sehen wir mehr Organisationen, die LangOps-Teams aufbauen. Diese Gruppen werden maschinelle Übersetzungstechnologie verwenden, um Kundendienst-, Vertriebs-, Marketing-, Produkt- und andere Teams im gesamten Unternehmen durch Sprache zu verbinden.

Wir freuen uns, die Geschichte der maschinellen Übersetzung mitschreiben zu können. Es ist eine unglaubliche Zeit, sich an dieser Arbeit zu beteiligen, und wir sind immer auf der Suche nach Möglichkeiten, andere Organisationen in diesem Bereich zu unterstützen und von ihnen zu lernen. Angesichts der Geschwindigkeit, mit der diese Technologie voranschreitet, kann man mit Sicherheit sagen, dass die Zukunft der maschinellen Übersetzung rosig ist. Wir können es kaum erwarten, die neuen Wege zu sehen, die wir in den kommenden Jahren gemeinsam nutzen werden.

 

About the Author

André Martins is the vice president of AI research at Unbabel, an AI-powered Language Operations platform that helps businesses deliver multilingual support at scale. André has published 30+ papers with over 1,700 citations and an h-index of 21 in top-tier conferences and journals (such as Computational Linguistics, JMLR, PAMI, ACL, ICML, and EMNLP). He also received a best paper award at the Annual Meeting of the Association for Computational Linguistics (ACL).

Profile Photo of André Martins