Künstliche Neugier ermöglicht dieser Bot den Triumph bei Montezumas Rache
Als es zuerst im Jahre 1984 erschien, galt Montezumas Rache eines der schwierigsten Videospiele auf einer Spielekonsole angezeigt werden. Jetzt, in einer Bemühung, Maschinen effizienter lernen helfen, KI-Forscher haben einen Algorithmus, der eigentlich der Held dieser klassischen Videospiel in einigen sehr wichtigen Punkten motiviert – und es ist überraschend wirksam.
Wer jemals Montezumas Rache gespielt hat weiß, wie frustrierend das Spiel tatsächlich sein kann. Die Autoren der neuen Studie beschreiben die Herausforderungen dieser Art und Weise:
Montezumas Rache ist berüchtigt für seine feindlichen, unversöhnlich Umgebung: der Agent [genannt Panama Joe] muss ein Labyrinth bestehend aus verschiedenen Räumen navigieren, jeweils gefüllt mit einer Anzahl von fallen. Die Belohnungen sind weit und nur wenige dazwischen, so dass es fast unmöglich für die ungerichtete Exploration Systeme, um erfolgreich zu sein.
Dieses Vintage Spiel ist schwierig für menschliche Spieler, geschweige denn eine künstliche Intelligenz. Bis heute, es dauert Hunderte von Millionen von einzelnen Frames für eine AI, auch die geringste Leistungsniveaus zu erreichen, und sie sind bestenfalls nur in der Lage, zwei oder drei Zimmern aus der 72 löschen.
Googles DeepMind Division hat versucht, Montezumas Rache seit geraumer Zeit zu lösen. Google im vergangenen Jahr angekündigt, dass seine Tiefe Q-System war zu besiegen 49 Atari Spiele einfach durch zuschauen wie Videospiele gespielt werden. Aber Montezumas Rache stellt eine andere Herausforderung ganz. Wie damals in Wired berichtet, war tief Q nicht in der Lage jede Art von Fortschritt im Spiel, erzielte "eine große fette Null." Geht durch Dave Gershgorn in Popular Science, darauf hingewiesen, dass um in diesem Spiel erfolgreich zu sein, "Spieler müssen, wie man einen Raum zu löschen, und führen Sie dann diesen Plan zu planen."
Zu diesem Zweck, und in seinen neuesten Bemühungen erstelle ich endlich ein Mittel, das gelingt, zumindest teilweise auf Montezumas Rache, die DeepMind Forscher ausgestattet Panama Joe mit sogenannten "intrinsischen Motivation."
Grundsätzlich der Protagonist unseres digitalen Abenteuers ist darin geschult, lösen Sie jede Ebene in ähnlicher Weise, wie Menschen es tun, und es hat getan, mit Neuheit-basierte Belohnungen. Panama Joe ist "motiviert", nicht nur um das Spiel zu gewinnen, sondern auch mehr vom Spiel zu erkunden. In jeder Folge versucht er etwas anderes, und diese oft Rassen neue Lösungen und letztlich Erfolg.
Joe ist natürlich nicht wirklich selbstbewusst wie menschliche Spieler. Vielmehr ist er durch eine Reihe von digitalen Belohnungen wesentlichstes. Dies hilft ihm schneller und von ein paar Beispielen lernen.
In einem Beispiel (Show in dem obigen Video) Panama Joe tatsächlich gelingt eine ganze Ebene in nur vier Versuche zu lösen. Und in einer vergleichenden Analyse des Agenten programmiert mit und ohne diese sogenannte künstliche Neugier erkundet intrinsisch motivierte Joe 15 Zimmer insgesamt 24, während die unmotivierte Joe nur zwei untersucht.
Durch diese Arbeitsweise in sogenannten Arcade Lernumgebungen, hoffen die Forscher, dass Algorithmen zu produzieren, die in der realen Welt angewendet werden können. In Zukunft ähnliche Motivationen könnte helfen, Roboter und andere autonome Geräte navigieren und entdecken Sie ihre Welt in ähnlicher Weise.
[ArXiv über Popular Science]