Computervision sieht besser durch die Konzentration auf die kleinen Dinge
Forscher nehmen einen innovativen Ansatz zu einer Objekterkennung
System für Computer, beginnt im kleinen und baut, statt
kämpfen, um zu begreifen, was sind die wichtigsten Teile eines Objekts.
Dieser "Bottom-Up"-Methode sollte Objekt machen.
Erkennungssysteme viel einfacher zu erstellen und zu verwenden
Computer-Speicher effizienter.
Objekterkennung ist eines der Kernthemen in der Computervision
Forschung: immerhin ein Computer, die sehen können ist nicht viel nützen, wenn es hat
keine Ahnung, was es sieht.
Eine konventionelle Anerkennung Objektsystem, wenn Sie versuchen zu erkennen, eine
bestimmte Art von Objekt in ein digitales Bild beginnt in der Regel durch
auf der Suche nach herausragenden Merkmale des Objekts.
Ein System gebaut, um Gesichter zu erkennen könnte beispielsweise nach Sachen suchen.
ähnlich wie Augen, Nasen und Münder und dann bestimmen, ob sie
haben Sie die richtige räumlichen Beziehungen zueinander.
Die Gestaltung solcher Systeme erfordert jedoch in der Regel menschlichen
Intuition: ein Programmierer entscheidet, welche Teile der Objekte haben sollte
Priorität in das Computersystem Augen. Das bedeutet, dass für jede neue
Objekt hinzugefügt, das System Repertoire, muss der Programmierer beginnen
von Grund auf bestimmen, welche Teile des Objekts sind die meisten
wichtig.
Es bedeutet auch, dass ein System entwickelt, um Millionen von erkennen
verschiedene Arten von Objekten wäre unüberschaubar groß geworden: jedes Objekt
hätte seinen eigenen, einzigartigen Satz von drei oder vier Teile, sondern die Teile
aussehen würde
anders als unterschiedliche Perspektiven und Katalogisierung all jene
Perspektiven bräuchte eine enorme Menge an Arbeitsspeicher des Computers.
Zwei Fliegen mit einer Klappe
In einem Papier des Institute of Electrical vorgelegt werden und
Elektronik-Ingenieure Conference on Computervision und Muster
Anerkennung im Juni, Forscher am MIT und der University of
Kalifornien, Los Angeles beschreiben ein Konzept, das diese beiden löst
Probleme auf einmal.
Wie die meisten Objekterkennung Systeme lernt ihr system
neue Objekte zu erkennen, indem "geschult" mit digitalen Bildern mit der Bezeichnung
Objekte. Aber es muss nicht im Voraus wissen, welche der Objekte
Funktionen, die sie suchen sollten.
Für jedes markierte Objekt identifiziert es zunächst die kleinste Merkmale es
können – oft nur kurze Liniensegmente. Dann es für sieht Instanzen in
die diese Low-Level-Funktionen miteinander verbunden sind, bilden
etwas anspruchsvollere Formen.
Als nächstes sucht das System nach Instanzen, in denen diese mehr
raffinierte Formen miteinander verbunden sind, und so weiter, bis es ist
montierte ein hierarchischer Katalog von komplexer Teile, deren
oberste Schicht ist ein Modell des ganzen Objekts.
Skaleneffekte
Sobald das System von unten nach oben, es seinen Katalog zusammengestellt hat
geht durch sie von oben nach unten, Worfeln, die Entlassungen.
In den Teilekatalog für ein Pferd gesehen im Profil, zum Beispiel die
zweite Schicht von oben kann zwei unterschiedliche Darstellungen enthalten.
der Rückseite des Pferdes: man könnte umfassen Rump, einem hinteren Bein und Teil
aus dem Bauch; Andererseits kann der Bürzel und beide Hinterbeine enthalten.
Aber es könnte sich herausstellen, dass in der überwiegenden Mehrzahl der Fälle wo die
System erkennt man diese "Teile", nennt es auch die andere.
So wird es einfach einer von ihnen aus seiner Hierarchie geschnitten.
Obwohl die hierarchische Ansatz neue Schichten von Informationen fügt
über Digital dargestellten Objekte endet es Speicher zu sparen, weil
verschiedene Objekte können Teile teilen. Das heißt, bei mehreren unterschiedlichen Schichten,
die Teile Kataloge für ein Pferd und ein Reh konnte am Ende mit Formen
gemeinsam; in gewisser Weise dasselbe gilt wahrscheinlich auch für Pferde und
Autos.
Überall dort, wo eine Form zwischen zwei oder mehreren Katalogen, das System freigegeben ist
muss es nur einmal speichern. In ihrer neuen Arbeit zeigen die Forscher
das Hinzufügen von der Fähigkeit, mehr Objekte auf ihrem System zu erkennen
die durchschnittliche Anzahl der Teile pro Objekt sinkt stetig.
Den Wald vor lauter Bäumen nicht sehen
Obwohl die Forscher arbeiten versprechen eine effizientere Nutzung
Arbeitsspeicher des Computers und Programmierer Mal, "ist es viel wichtiger als
nur eine bessere Möglichkeit, Anerkennung, widersprechen", sagte Tai Sing Lee, ein
Associate Professor für Informatik an der Carnegie Mellon University
Wer nicht in der Forschung beteiligt war. "Diese Arbeit ist wichtig zum Teil
weil ich das Gefühl, dass es zu wenige wissenschaftliche Geheimnisse im Gehirn spricht."
Lee darauf hingewiesen, dass visuelle Verarbeitung beim Menschen scheint einbeziehen
fünf bis sieben verschiedene Hirnregionen, aber niemand ist ganz sicher, was Sie
tun. Die Forscher neue Objekt-Erkennungssystem ist nicht festgelegt, die
Anzahl der Schichten in jedem hierarchischen Modell; das System einfach
sammelt so viele Schichten wie es braucht.
"Was mich irgendwie betäubt ist, dass [das] System in der Regel fünf lernt
auf sieben Ebenen", sagte Lee. Das, sagte er, legt nahe, dass es durchführen können
die gleichen Arten von visuellen Verarbeitung, der im Gehirn stattfindet.
In ihrem Papier berichten die MIT und an der UCLA Forscher, dass bei Tests,
Ihr System durchgeführt sowie bestehende Objekterkennung Systeme.
Aber das ist noch nicht annähernd ebenso wie das menschliche Gehirn.
Lee sagte, dass die Forscher System konzentriert sich derzeit vor allem auf
erkennen die Kanten des zweidimensionalen Darstellungen von Objekten; An
die Leistung des menschlichen Gehirns zu nähern, wird es zu integrieren
viele weitere Informationen über Oberflächenstrukturen und
dreidimensionale Konturen, wie das Gehirn funktioniert.
Lange (Leo) Zhu, Postdoc am MITS und Co-Autor des Papiers,
fügte hinzu, dass er und seine Kollegen auch andere Anwendungen verfolgen:
Ihre Technologie.
Zum Beispiel bieten ihre hierarchische Modelle natürlich selbst nicht
nur für automatische Objekterkennung – bestimmen, was ein Objekt ist —
aber auch automatische Objekt-Segmentierung-Beschriftung eines Objekts
Bestandteile.
• Selbstfahrende
Autos können wie Menschen sehen.
• Militär
Augen "Smart Kamera" Robotik visuelle Intelligenz steigern
• 10
Tief greifende Innovationen voran