Wie Google Übersetzung in ein mathematisches Problem geworden ist
Technology Review hat ein Licht auf eine Google-Forschungsarbeit auf dem Server ArXiv veröffentlicht glänzte. Es buchstabiert wie der Suchmaschinen-Gigant jüngste Übersetzungsarbeit konzentriert sich auf Plotten, Wörter auf Sprache Karten – denken Sie an einen Raum voll von Wörtern, in irgendeine Art von logischen Reihenfolge bestellt – und nutzt einfach lineare Operationen zwischen Sprachen wechseln. Technology Review erklärt:
Das neue Konzept ist relativ einfach. Es beruht auf der Vorstellung, dass jede Sprache muss eine ähnliche Reihe von Ideen, beschreiben, so dass die Worte, die dazu auch ähnlich sein müssen. Zum Beispiel haben die meisten Sprachen Wörter für gemeinsame Tieren wie Katze, Hund, Kuh und So weiter. Und diese Worte sind wahrscheinlich auf die gleiche Weise in Sätzen verwendet, wie z. B. "eine Katze ist ein Tier, das kleiner ist als ein Hund."
Das gleiche gilt für Zahlen. Das Bild oben zeigt die Vektor-Darstellungen der Zahlen eins bis fünf in Englisch und Spanisch und zeigt, wie ähnlich sie sind.
Dies ist ein wichtiger Hinweis. Der neue Trick ist, eine ganze Sprache unter Zugrundelegung der Beziehung zwischen den Wörtern zu vertreten. Der Satz aller Beziehungen, die so genannte "Sprache Raum" kann betrachtet werden als ein Satz von Vektoren, dass jeder Punkt von einem Wort zum anderen. Und in den letzten Jahren Linguisten haben entdeckt, dass es möglich ist, diese Vektoren mathematisch zu behandeln. Beispielsweise führt die Operation "König" – "Mann" + "Frau" in einem Vektor, der "Königin" ähnlich ist.
Stellt sich heraus, dass viele Sprachen eine große Anzahl von Ähnlichkeiten, teilen wenn sie auf diese Weise zugeordnet sind was, dass das Problem nicht darum bedeutet, die richtigen Worte zu finden, sondern darum, den richtigen Weg zu einem Vektorraum zu einer anderen Karte. Das heißt, ist die Übersetzung nicht mehr ein Problem der Linguistik, sondern der Mathematik.
Das schöne ist, dass die Technik nicht wirklich keine Annahmen über die Sprachen beteiligt, es fragt nur die Art und Weise Vektorraum beziehen sich auf um andere zu lehren. Das macht es unglaublich vielseitig. Aber die Algorithmen sind noch in ihren Anfängen; Es gibt ein Weg zu gehen. [ArXiv über Technology Review]
Bild von Dylancantwell unter Creative Commons Lizenz