AlphaGo selbst beigebracht, zu gewinnen, aber ohne den Menschen würde es aus der Zeit laufen haben
Auch bei Googles DeepMind gibt es immer noch Sachen, die Menschen am besten Code, es scheint – und auf Timing kommt es an
AlphaGo, Brett-Spiel AI von Googles DeepMind Tochter, ist eines der berühmtesten Beispiele des tiefen Lernens – maschinelles Lernen mit neuronalen Netzen – bis heute. So kann es sein, überrascht zu erfahren, dass Teil des Codes, die die Maschine Sieg geführt, wurde von guten altmodischen Menschen erstellt.
Die Software, die koreanische gehen Champion Lee Sedol 4: 1 im März zu schlagen, lehrte selbst zum alten asiatischen spielen indem man Millionen Simulationen gegen sich selbst.
AlphaGo ist eine der zwei neuronale Netze, vermittelt durch eine Mischung aus überwachten Lernen (Studium vergangene Spiele gespielt von Menschen) und Verstärkung (gegen sich selbst spielen und lernen aus ihren Fehlern) zu lernen. Aber einige Dinge, es stellt sich heraus, nicht nur gelehrt werden.
Nach Thore Graepel, Forschung Führung in DeepMind, war AlphaGos fertigen Anlage sehr gut arbeiten, welche Bereiche des Boards zu seinem Denken konzentrieren, aber nicht so gut arbeiten Sie, wann Sie aufhören zu denken und eine Bewegung tatsächlich zu spielen.
Das ist ein Problem, weil konkurrenzfähigsten Go Spiele verwenden ein komplexes Timing-System: im Match gegen Lee gespielt, zum Beispiel, jeder Spieler hatte insgesamt zwei Stunden, ihre Bewegungen zu machen, und drei Minuten langen erfrischenden Puffer, genannt "Byo-Yomi", das sie in spielen könnte, sobald die zwei Stunden waren. Verwenden Sie nicht das ganze von einem Byo-Yomi, und Sie können es wieder nächste Abbiegung. Führen Sie es aus, und Sie es für immer zu verlieren. Alle drei abgelaufen, und Sie verlieren Zeit.
"Es gibt diesem Meta-Spiel, das gespielt wird," erklärt Graepel. "Menschen tun ganz ausgeklügeltes Zeitmanagement. Sie denken über schwierige Situationen viel länger, und dann spielen mehr reaktiv und schneller in anderen Situationen, und wir haben versucht, dies auch ein wenig zu tun.
"Zeit ist eine wichtige Ressource: je länger wir können denken über einen Wechsel, desto besser die Bewegung im Allgemeinen, aber es werden hat nur begrenzte Zeit. So hatten wir einige Methoden im Ort wo, wenn wir wüssten, dass durch das Denken mehr der Algorithmus nicht seine Entscheidung ändern würde, egal was kam aus, dass zusätzliche Bedenkzeit, die es nicht mehr ändern, wir, die feststellen kann."
Anstatt zu bauen die Timing-Regeln AlphaGos Verständnis des Spiels, aber verschraubt das Team stattdessen es auf als eine zusätzliche Einschränkung. Und im Gegensatz zu den Core-Engine, die Timing-Algorithmus wurde letztlich von hand erzeugt.
Es war immer noch obwohl algorithmisch, perfektioniert. "Wir es durch unser Bewertungssystem optimiert" Graepel sagte. " So wir verschiedene Kurven, die wir vergleichen waren hatten. Sie wissen, weniger Zeit am Anfang und mehr Zeit und mehr später, oder mehr Zeit am Anfang und später weniger... Wir haben getestet, welches die besten gespielt. "
Also mach dir keine Sorgen Sie zu viel über Maschinen, die unter Ihren Job. Gibt es immer etwas für Sie tun – selbst wenn, die nur die Stoppuhr manning ist.