Künstliche Neugier ermöglicht dieser Bot den Triumph bei Montezumas Rache


Als es zuerst im Jahre 1984 erschien, galt Montezumas Rache eines der schwierigsten Videospiele auf einer Spielekonsole angezeigt werden. Jetzt, in einer Bemühung, Maschinen effizienter lernen helfen, KI-Forscher haben einen Algorithmus, der eigentlich der Held dieser klassischen Videospiel in einigen sehr wichtigen Punkten motiviert – und es ist überraschend wirksam.

Wer jemals Montezumas Rache gespielt hat weiß, wie frustrierend das Spiel tatsächlich sein kann. Die Autoren der neuen Studie beschreiben die Herausforderungen dieser Art und Weise:

Montezumas Rache ist berüchtigt für seine feindlichen, unversöhnlich Umgebung: der Agent [genannt Panama Joe] muss ein Labyrinth bestehend aus verschiedenen Räumen navigieren, jeweils gefüllt mit einer Anzahl von fallen. Die Belohnungen sind weit und nur wenige dazwischen, so dass es fast unmöglich für die ungerichtete Exploration Systeme, um erfolgreich zu sein.

Dieses Vintage Spiel ist schwierig für menschliche Spieler, geschweige denn eine künstliche Intelligenz. Bis heute, es dauert Hunderte von Millionen von einzelnen Frames für eine AI, auch die geringste Leistungsniveaus zu erreichen, und sie sind bestenfalls nur in der Lage, zwei oder drei Zimmern aus der 72 löschen.

Googles DeepMind Division hat versucht, Montezumas Rache seit geraumer Zeit zu lösen. Google im vergangenen Jahr angekündigt, dass seine Tiefe Q-System war zu besiegen 49 Atari Spiele einfach durch zuschauen wie Videospiele gespielt werden. Aber Montezumas Rache stellt eine andere Herausforderung ganz. Wie damals in Wired berichtet, war tief Q nicht in der Lage jede Art von Fortschritt im Spiel, erzielte "eine große fette Null." Geht durch Dave Gershgorn in Popular Science, darauf hingewiesen, dass um in diesem Spiel erfolgreich zu sein, "Spieler müssen, wie man einen Raum zu löschen, und führen Sie dann diesen Plan zu planen."

Zu diesem Zweck, und in seinen neuesten Bemühungen erstelle ich endlich ein Mittel, das gelingt, zumindest teilweise auf Montezumas Rache, die DeepMind Forscher ausgestattet Panama Joe mit sogenannten "intrinsischen Motivation."

Grundsätzlich der Protagonist unseres digitalen Abenteuers ist darin geschult, lösen Sie jede Ebene in ähnlicher Weise, wie Menschen es tun, und es hat getan, mit Neuheit-basierte Belohnungen. Panama Joe ist "motiviert", nicht nur um das Spiel zu gewinnen, sondern auch mehr vom Spiel zu erkunden. In jeder Folge versucht er etwas anderes, und diese oft Rassen neue Lösungen und letztlich Erfolg.

Joe ist natürlich nicht wirklich selbstbewusst wie menschliche Spieler. Vielmehr ist er durch eine Reihe von digitalen Belohnungen wesentlichstes. Dies hilft ihm schneller und von ein paar Beispielen lernen.

In einem Beispiel (Show in dem obigen Video) Panama Joe tatsächlich gelingt eine ganze Ebene in nur vier Versuche zu lösen. Und in einer vergleichenden Analyse des Agenten programmiert mit und ohne diese sogenannte künstliche Neugier erkundet intrinsisch motivierte Joe 15 Zimmer insgesamt 24, während die unmotivierte Joe nur zwei untersucht.

Durch diese Arbeitsweise in sogenannten Arcade Lernumgebungen, hoffen die Forscher, dass Algorithmen zu produzieren, die in der realen Welt angewendet werden können. In Zukunft ähnliche Motivationen könnte helfen, Roboter und andere autonome Geräte navigieren und entdecken Sie ihre Welt in ähnlicher Weise.

[ArXiv über Popular Science]

Verwandte Artikel

Eine verstellbare Klinge ermöglicht dieses automatische Mischer passen jedem Topf

Sagen sie nie ein überwachter Topf kocht, aber ein unbeobachteten Topf gehen von simmering brennen in der ein Wimpernschlag. Das ist, warum die ursprüngliche Stirio war eine geniale Idee, es tat das Rühren, während Sie sich mit anderen Prep beschäftigt. U...

Sehen Sie sich diese Bot mit einem gebrochenen Bein zu Fuß wieder gerade lernen

Menschen sind sehr anpassungsfähig Kreaturen, und wir tun alles, was wir, um zu verhindern, dass eine Verletzung von völlig still uns können. Also, wenn Roboter alle unsere Aufgaben übernehmen sollen, sie lernen, wie man schnell wieder vor Beschädigungen...

Samsungs Auge Maus ermöglicht den Behinderten Computer leichter

Mit Hilfe eines Computers kann schwierig oder sogar unmöglich für einige Menschen mit Behinderungen sein. Samsungs Eye-Tracking-Technologie ermöglicht nun, Menschen, die kämpfen würde, um eine Maus verwenden, um ihren Computer mit relativer Leichtigk...

Teslas neue Autopilot-System ermöglicht Elektroauto selbst Spurwechsel

Unternehmen begeistert von semi-autonomen System warnt aber, dass noch Fahrer halten ihre Hände fest auf dem Rad Die elektrische Autobauer Tesla Motors hofft, Wettbewerber mit einem neuen Autopilotsystem zu überholen, die Autos selbst Spurwechsel ermöglic...

WLAN-Adapter ermöglicht die Verwendung eine PS4-Steuerung auf der klassischen 8-Bit-NES-Konsole

Das ursprüngliche 8-Bit Nintendo Entertainment System in nordamerikanischen gut angekommen, bevor wie Bluetooth oder wi-Fi wireless-Standards hergestellt wurden – es war nicht bis die Gamecube, dass Nintendo sogar wireless Controller angeboten. Aber Dank...

IPhone 6 s Sicherheitslücke ermöglicht es Angreifern Zugriff Kontakte und Fotos ohne passcode

Lockscreen Schwachstelle ermöglicht Angreifern, schnell Zugang zu personenbezogenen Daten auf einem gesperrten iPhone 6 s oder 6 s Plus mit Siri, Twitter und 3D Touch Eine Sicherheitslücke mit dem iPhone 6 s und 6 s Plus wird niemanden Telefon sperren und...

6 Handlungen von Real-Life Heldentum ermöglicht durch Videospiele

Cracked hingewiesen hat, bevor die Menschheit gerade jetzt auf die Idee kommt herum, dass Videospiele schließlich tatsächlich zu etwas gut sein könnte. Wir brauchen diese Geschichten um zwei Jahrzehnte der Ansprüche auszugleichen, dass Spiele einer Gehirn...

Swansea Niederlage ermöglicht Eddie Howe Bournemouths definierenden Moment genießen

• Dritten Sieg in Folge setzt Kirschen 13 Punkte auf Abstiegsplatz Vorsprung• Howe: "am Ende Sie können sich vorstellen, das war ein schöner Moment im Nachhinein" Wer sich in Sichtweite der Gewinnlinie verlangsamt? Cheltenham Festival beginnt in...

Gehirn-Implantat ermöglicht ein Affe steuern eine andere

In Arbeit inspiriert zum Teil durch den Film "Avatar", ein Affe kontrollieren konnte den Körper ein anderer Affe mit Gedanken allein durch das Gehirn des Puppenspieler Affen auf die Wirbelsäule des anderen durch eine Prothese zu verbinden, sagen...

Neue Technik ermöglicht die Entdeckung neuer Welten

Diese Forschung in Aktion Artikel wurde LiveScience in Zusammenarbeit mit der National Science Foundation zur Verfügung gestellt. Obwohl Hunderte von Planeten um andere Sterne Kreisen bekannt sind, ist es äußerst schwierig, sie direkt in einem Bild zu seh...

Super Bowl Space Tech: NASA ermöglicht das große Spiel

NASA und den Super Bowl möglicherweise nicht zwei Dinge, die Sie normalerweise im selben Satz würden zusammen, aber am Sonntag Großwild wäre nicht dasselbe ohne innovative Spin-off Technologien aus der Raumfahrt. Helme für Headsets, die Kommunikations-Sat...

Seltsame Quantum Tunneling ermöglicht es "Unmöglich" Raum Chemie

Eine seltsame Eigenart der Quantenmechanik ist eine chemische Reaktion schien unmöglich in kaltes Gas in den Weltraum auftreten ermöglicht. In der rauen Umgebung des Raumes, wo die Temperatur über minus 350 Grad Fahrenheit (minus 210 Grad Celsius) ist, ha...

Rodrigo Duterte ermöglicht Philippinen Diktator Marcos ein Held Bestattung

Gewählter Präsident sagt, er werde auch ehemaligen Führer Gloria Arroyo vergeben aber zugibt, dass umstrittene Ankündigungen landesweite Unruhen entfachen könnte Philippinen Diktator Ferdinand Marcos ein Held Bestattung erlaubt wird landesweit umstrittene...

Was sie mit diesem Vogel ermöglicht es Ihnen, die Welt wie nie zuvor zu sehen

Erhaltung der Freiheit ist eine Organisation, die Greifvögel in Gefangenschaft zu jagen und fliegen von Skifahren, Kajakfahren und Paragliding mit ihnen geboren Lehre gewidmet. Es wurde von Jacques-Olivier Travers und Ronald Menzel und die Organisation do...