Google AI Wahrzeichen Sieg über Go-Großmeister
Ventilator Hui, Dreifach-Sieger der ostasiatische Brettspiel, verloren, DeepMinds Programm AlphaGo in fünf gerade Spiele
Als Gary Kasparov Schachcomputer Deep Blue im Jahr 1997 verloren, Meilenstein IBM ein in der Geschichte der künstlichen Intelligenz. Am Mittwoch verdient in eine wissenschaftliche Arbeit in der Natur, veröffentlicht Google seinen eigenen Standpunkt in den Geschichtsbüchern, mit der Ankündigung, die seine Tochter baute DeepMind ein System, das die besten menschlichen Spieler in der Welt an die ostasiatische Brettspiel zu schlagen gehen.
Gehen, eine Spiel, die beinhaltet die Platzierung von schwarzer oder weißer Fliesen auf einem 19 x 19 Brett und versuchen, Ihre Gegner zu entfernen ist sehr viel schwieriger für einen Computer zu beherrschen als ein Spiel wie Schach.
DeepMind Software, AlphaGo, schlagen erfolgreich die dreimalige Europäische Go Champion Fan Hui 5: 0 in einer Reihe von Spielen in der Unternehmenszentrale in Kings Cross im Oktober letzten Jahres. Dr. Tanguy Chouard, leitender Redakteur beim Natur, die die Spiele im Rahmen des Überprüfungsprozesses, besuchte beschrieben den Sieg als "wirklich kühlen um zu sehen".
"Es war einer der aufregendsten Momente meiner Karriere", fügte er hinzu. "Aber mit den üblichen gemischte Gefühle... in die ruhigen Zimmer im Erdgeschoss, man konnte nicht umhin, Wurzel für den armen Menschen geschlagen."
Es ist das erste solche Sieg für ein Computer-Programm, und es kam eine Dekade, bevor jemand es erwartet. Erst im Jahr 2014, Rémi Coulom, hatte Entwickler von der vorherigen führenden Go KI, verrückte Stein vorausgesagt, dass es 10 Jahre für eine Maschine gewinnt gegen einen Top-bewertete menschliche Spieler ohne Handicap dauern würde.
AlphaGo übertraf alle Erwartungen durch die Annäherung an die Herausforderung ganz anders aus früheren Software. Aufbauend auf Techniken, die DeepMind in andere Kunststücke der künstlichen Intelligenz, wie sein System eingesetzt hatte, die Retro-Videospiele spielen lernen könnte verwendet AlphaGo was die Firma ruft "Deep Learning" zum eigenem Verständnis des Spiels Aufbau. Es könnte dann die Züge wählen Sie dachte es am ehesten zu gewinnen.
Wenn Sie einen Computer zu einem Spiel zu unterrichten, ist die einfachste Methode, sagen Sie ihm, jede mögliche Bewegung im Laufe des Spiels, von besten, am schlimmsten, und dann weisen ihn an, wählen Sie immer den besten Zug Rang. Dass Art Strategie für triviale Spiele wie Zugluft und Nullen und Kreuze, die beide "von Computern, die vollständig untersucht jedes Board-Zustand und einen Weg finden, um mindestens ein Unentschieden, egal was die anderen Spieler zu spielen gearbeitet haben gelöst wurden" funktioniert.
Jedoch nicht für komplexe Spiele wie Schach, der einfache Weg. Schach ist einfach zu groß: in jeder Runde gibt es ungefähr 35 legalen Züge und eine Spiel dauert rund 80 Umdrehungen. Auflisten von jeder Stellung wird rechnerisch unmöglich sehr schnell, weshalb es so viele Jahre für IBMs Team zu arbeiten, ein Weg, um Kasparov schlagen dauerte.
Go ist noch größer. Die Definition der leicht zu erlernen, schwer zu meistern, hat es im Wesentlichen nur zwei Regeln für die Kern-Spiel, das zwei Spieler abwechselnd schwarzen und weiße Fliesen auf einem 19 x 19 Brett platzieren umfasst. Die Stones mit mindestens einer leeren Raum neben, oder Teil einer Gruppe von Steinen der gleichen Farbe mit mindestens einer leeren Raum platziert werden müssen, und wenn sie ihre "Freiheit" verlieren, sind sie vom Brett entfernt.
Während eine Partie Schach haben könnte 35 rechtliche bewegt sich jede Runde, eine Go-Spiel hat rund 250 (einschließlich 361 rechtliche Ausgangslage allein); wo Schachspiele zuletzt rund 80 wendet, Spiele gehen letzten 150. If Google had tried to solve the game in the same way noughts and crosses was solved, it would have had to examine and rank an obscene amount of possible positions: in the ballpark of 1,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000 of them.
Macht eine erschöpfende Suche unmöglich und auch eine gezielte Suche im Stil von Deep Blue verwendet, um Kasparov, schwierig für die effiziente Ausführung zu besiegen.
Die Leiden derer, die versuchen, master Go hinzufügen, ist die Tatsache, dass im Gegensatz zu Schach, es sehr schwierig ist, das Board betrachten und mathematisch bestimmen, wer gewinnt. Im Schach wird ein Spieler mit ihrer Königin wahrscheinlich schlagen einen Spieler, dessen Königin ergriffen wurden, und so weiter: Es ist möglich, diese Stücke Werte zuweisen, und kommen mit einer laufenden, dass etwa Reihen Punkte jedes Spielers Perspektiven. In Go hingegen Zähler sind selten vom Brett entfernt, und gibt es keine einfache mathematische Möglichkeit zu bestimmen, wer in der stärkeren Position, bis das Spiel sehr weit fortgeschritten ist.
Daher konzentriert sich die AlphaGo auf eine ganz andere Strategie. Als David Silver, DeepMind Co-Lead Forscher an dem Projekt, sagt: "AlphaGo blickt durch viele Male über den Rest des Spiels in seiner Phantasie spielen." Das Programm beinhaltet zwei neuronale Netze, Software, die die Struktur des menschlichen Gehirns zu Aggregat sehr einfachen Entscheidungen in komplexen Entscheidungen, parallel laufende imitiert.
Einerseits das Policy Network wurde ausgebildet durch die Beobachtung, dass Millionen von Platten von Go in ein Online-Archiv hochgeladen. Diese Beobachtungen, es baute ein Vorhersagemodell von wo es das nächste Stück gespielt werden, angesichts wissen und alle vorherigen Positionen erwartet könnte vermuten, dass genau den nächsten Schritt der ein Experte Spieler 57 % der Zeit (im Vergleich zum vorherigen Datensatz von 44,4 % aus anderen Gruppen).
Diese "betreutes Lernen" wurde dann gesichert durch einen Anfall von "Reinforcement Learning": das Netzwerk wurde gegründet, um spielen gegen sich selbst, aus seiner Siege und Niederlagen zu lernen, wie sie mehr als 1 m Einzelspiele im Laufe eines Tages durchgeführt.
Das Policy Network war in der Lage, Vorhersage der Wahrscheinlichkeit, die jede gegebene Bewegung gespielt werden würde, bei Bedarf weiter, aber das System auch einen zweiten Filter zu helfen, wählen Sie die von diesen Zügen war das beste. Das Netzwerk der "Value Network", prognostiziert den Gewinner des Spiels jeweils bestimmten Board Stand.
Aufbau der AlphaGo ist nicht genauso wichtig wie eine Feder in DeepMinds GAP. Das Unternehmen argumentiert, dass die schön-und Widerdruck Tiefe Lerntechniken wie dieser für seine künftige Arbeit von entscheidender Bedeutung sind. Demis Hassabis, DeepMind Gründer, sagt, dass "letztlich wir diese Techniken in wichtigen Problemen der realen Welt, von der medizinischen Diagnostik wollen, Klimamodellierung anwenden".
Denn jetzt, das DeepMind-Team konzentriert sich auf ein Endziel auf dem Go-Brett: ein Match gegen Lee Se-Dol, der Weltmeister. Lee sagt, dass "unabhängig vom Ergebnis, es wird eine sinnvolle Ereignis in der Geschichte Baduk (der koreanische Name für Go) sein. Ich habe gehört, Google DeepMind AI ist überraschend stark und immer stärker, aber ich bin zuversichtlich, dass ich zumindest dieses Mal gewinnen können. "