Googles Bilderkennungssoftware kann nun ganze Szenen beschreiben.
Bilderkennung war schon gut – aber es ist so viel besser dran. Eine Forschungskooperation zwischen Google und der Stanford University ist Software produzieren, die zunehmend die gesamte Szene in ein Bild, nicht nur einzelne Objekte dargestellt beschreibt.
Die New York Times berichtet, dass Algorithmen geschrieben vom Team versucht zu erklären, was passiert in Bildern – in Sprache, die tatsächlich macht Sinn. Also es spuckt Sätze wie "eine Gruppe von jungen Menschen, die ein Spiel von Frisbee" oder "eine Person, die mit dem Motorrad auf einer unbefestigten Straße."
Sie tut das mit zwei neuronale Netze: eine beschäftigt sich mit Bilderkennung, andererseits mit der Verarbeitung natürlicher Sprache. Das System nutzt Computer lernen, so es eine Reihe von Untertiteln Bildern gefüttert hat und es nach und nach wie Sätze beziehen sich lernt auf die Abbildung. Die daraus resultierende Software ist laut Aussage des Teams, etwa doppelt so genau wie jede Software vor ihm gegangen zu sein.
Es ist nicht, jedoch perfekt. Überprüfen Sie zum Beispiel das Bild oben: es macht oft kleine Fehler und, gelegentlich, es wird Dinge völlig falsch. Natürlich gibt es Raum für Verbesserungen, dann, aber es ist offensichtlich, dass Bilderkennung rasant verbessert.
Und vielleicht wenig überraschend bestimmten Google beteiligt, die natürliche Anwendung ist auf der Suche. Solcher Algorithmus könnte leicht relevante Bilder zurück, wenn Sie geben Sie in "drei Katzen essen Eisbecher in einem Billardraum" in einer Weise, die aktuellen Stand der Technik nicht nur. Und ist das nicht, was wir alle wollen? (Bessere Suche, ich meine, nicht die Katzen. Na ja, vielleicht die Katzen.) [Google Forschungs-Blog, Stanford University über New York Times]