Neue künstliche Intelligenz kann erzählen anhand von Fotos
Künstliche Intelligenz könnten eines Tages Umarmung die Bedeutung des Ausdrucks "ein Bild ist mehr als tausend Worte" als Wissenschaftler sind jetzt Lehrprogramme, Bilder zu beschreiben, wie Menschen.
Eines Tages, sagte Computer möglicherweise gar in der Lage zu erklären, was passiert in Videos genauso wie Menschen, der Forscher in einer neuen Studie.
Computer sind immer besser erkennen Gesichter und andere Gegenstände in Bildern gewachsen. Vor kurzem führten diese Fortschritte Untertitel Werkzeuge Bild, die wörtlichen Beschreibungen von Bildern zu generieren. [Super-intelligenten Maschinen: 7 Roboter Futures]
Nun entwickeln Wissenschaftler von Microsoft Research und ihre Kollegen ein System, das automatisch eine Reihe von Bildern in viel die gleiche Weise, würde eine Person beschreiben kann durch eine Geschichte zu erzählen. Das Ziel ist nicht einfach zu erklären, was auf dem Bild sind aber auch was zu geschehen scheint und wie es potenziell könnte eine Person das Gefühl, die Forscher sagten. Zum Beispiel wenn eine Person ein Bild von einem Mann in einen Smoking und eine Frau in einem langen, weißen Kleid angezeigt wird, er oder sie könnte sagen, "heiratete stattdessen sagen:"Dies ist eine Braut und Bräutigam,"meine Freunde. Sie sehen wirklich glücklich; "Es war eine wunderschöne Hochzeit."
Die Forscher versuchen, die künstliche Intelligenz die gleichen Geschichten-Funktionen geben.
"Soll dazu beitragen, dass AIs mehr menschenähnliche Intelligenz zu helfen, Dinge auf einer abstrakteren Ebene zu verstehen, was es bedeutet, lustig oder gruselig oder seltsam, interessant," sagte Studienautor senior Margaret Mitchell, ein Informatiker bei Microsoft Research. "Menschen haben Geschichten seit Äonen, überliefert mit ihnen, um unsere Moral und Strategien und Weisheit zu vermitteln. Wir hoffen mit unserem Fokus auf Storytelling AIs menschliche Begriffe in einer Weise zu verstehen, die sehr sicher und vorteilhaft für die Menschheit, anstatt es wie Menschheit schlagen helfen."
Eine Geschichte zu erzählen
Um ein visuelles Storytelling System zu bauen, nutzten die Forscher tief neuronale Netzwerke, Computersysteme, die anhand von Beispielen – zum Beispiel lernen, wie man Katzen in Fotos zu identifizieren, indem Sie Tausende von Beispielen der Katze Bilder analysieren. Die Forscher entwickelten System war ähnlich denen für automatisierte Sprachübersetzung, aber statt Unterricht das System von einer Sprache in eine andere zu übersetzen, die Wissenschaftler ausgebildet es Bilder in Sätze zu übersetzen.
Die Forscher verwendeten Amazon Mechanical Turk, ein Crowdsourcing-Marktplatz, um Arbeitskräfte einzustellen, um Sätze beschreiben Szenen bestehend aus fünf oder mehr Fotos schreiben. Insgesamt beschrieb die Arbeiter mehr als 65.000 Fotos für das EDV-System. Diese Arbeiter Beschreibungen konnte variieren, so dass die Wissenschaftler es vorgezogen, das System von Konten der Szenen zu lernen, die ähnlich wie bei anderen Konten jener Szenen waren. [Geschichte der A.I.: künstliche Intelligenz (Infografik)]
Dann gefüttert die Wissenschaftler ihr System mehr als 8.100 neue Bilder untersuchen, welche Geschichten es generiert. Zum Beispiel, während ein Bild Untertitel Programm dauern fünf Bilder und sagen: "Dies ist ein Bild von einer Familie; Dies ist ein Bild von einem Kuchen; Dies ist ein Bild eines Hundes; Dies ist ein Bild von einem Strand"Storytelling-Programm könnte die gleichen Bilder nehmen und sagen,"die Familie trafen sich für eine Grillparty; Sie hatte eine Menge leckeres Essen; der Hund war glücklich, dort zu sein; Sie hatten eine tolle Zeit am Strand; Es gab sogar ein Bad im Wasser."
Eine Herausforderung für die Forscher war wie zu beurteilen, wie effektiv das System war zu generieren Geschichten. Die beste und zuverlässigste Weg, um Geschichte Qualität zu beurteilen ist menschliches Urteilsvermögen, aber der Computer generiert Tausende von Geschichten, die Menschen würden eine Menge Zeit und Mühe zu prüfen.
Stattdessen versuchten die Wissenschaftler automatisierte Methoden zur Bewertung der Geschichte Qualität, um die Leistung des Computers schnell zu bewerten. Bei ihren Tests konzentrierten sie sich auf eine automatisierte Methode mit Bewertungen, die am ehesten menschliche Urteil abgestimmt. Sie fanden heraus, dass diese Methode bewertete Computer Geschichtenerzähler als über durchführen sowie menschliche Geschichtenerzähler automatisiert.
Hier ist alles super
Dennoch braucht der computerisierten Geschichtenerzähler viel mehr basteln. "Die automatisierte Auswertung sagt, es so gut oder besser als Menschen tut, aber wenn Sie tatsächlich anschauen, was erzeugt wird, es viel schlimmer als die Menschen ist," sagte Mitchell Live Science. "Es gibt eine Menge, die die automatisierte Auswertung Messdaten erfassen, sind nicht und es muss viel mehr Arbeit auf sie." Diese Arbeit ist ein solider Start, aber es ist nur der Anfang."
Zum Beispiel sagte das System "gelegentlich"visuelle Objekte, die nicht da sind halluzinieren wird"," Mitchell. "Es ist lernen allerlei Worte aber verfügen nicht über einen klaren Weg zwischen ihnen zu unterscheiden." So ein Wort bedeutet etwas denken, das dies nicht der Fall, und so [wird] sagen, dass etwas in einem Bild ist, wenn es nicht ist. "
Darüber hinaus die computerisierte Erzähler braucht eine Menge Arbeit bei der Bestimmung, wie bestimmte oder generalisierte seine Geschichten werden sollte. Zum Beispiel während der ersten Tests "er sagte nur, alles war super, jederzeit –" alle Leute hatten eine tolle Zeit; alle hatten eine tolle Zeit; Es war ein toller Tag "" Mitchell sagte. "Nun vielleicht, das ist wahr, aber wir wollen auch das System zu konzentrieren, was ist."
In der Zukunft sagte EDV Storytelling könnte helfen Menschen Geschichten für Diashows von Bildern automatisch zu generieren, die sie in sozialen Medien hochladen, Mitchell. "Sie helfen würden Menschen berichten von ihren Erfahrungen bei der Verringerung der Nitty-Gritty-Arbeit, die einige Leute ziemlich langweilig finden," sagte sie. Computerisierte Storytelling kann "auch Menschen, die Sehbehinderte, Bilder für Menschen öffnen, die sie nicht sehen können helfen."
Wenn AI jemals erfährt, basierte auf Bildsequenzen, Geschichten zu erzählen ", das ist ein Sprungbrett in Richtung tut das gleiche für Video", sagte Mitchell. "Das könnte helfen, interessante Anwendungen zur Verfügung stellen. Zum Beispiel für Überwachungskameras, möchten Sie vielleicht nur eine Zusammenfassung von allem bemerkenswert, oder Sie könnten automatisch Leben Tweet-Ereignisse,"sagte sie.
Die Wissenschaftler erläutern ihre Ergebnisse in diesem Monat in San Diego auf der Jahrestagung des North American Chapters der Association for Computational Linguistics.