Die neuesten Google-Algorithmus erstellt Video basierend auf ein paar Standbilder
Google Ingenieure können einige ziemlich unglaubliche Dinge mit der Verbrauchertechnologie entwickelte tun – von "Träumen" neuronale Netzwerke basierend auf Computervision, einen Algorithmus, der video von Street View-Bilder erstellen kann.
Zum Beispiel diesen Monat sahen wir als das Unternehmen "Traum Roboter", auch bekannt als seine Super-advanced künstliches neuronales Netz, lief wild über das Internet. Diese Netze werden für eine Reihe von praktischen Gründen, die mit einem Computer in der Lage, den Inhalt eines Bildes erkennen von Googles Ingenieurteam entwickelt – das ist eine besonders komplexe Aufgabe für eine dumme Maschine. Die unglaubliche künstliche "Gehirne" Google ist Lehre zu sagen, Tiere oder Architektur, erkennen, auch in der Lage sein zu "Träumen" geschieht, und die Ergebnisse überrascht und beeindruckt uns.
Hier ist ein weiteres ziemlich faszinierendes Beispiel der Bildschirmarbeit Vision des Unternehmens.
In dieser Woche MITs Technology Review ausgebildet sein Auge auf ein Papier von einem Google-Ingenieur namens John Flynn, der Erstautor auf ein neues Dokument mit dem Titel DeepStereo: lernen, Vorhersagen, neue Ansichten von der Welt-Bilder. Flynn und seine drei Co-Autoren, von die alle bei Google arbeiten, erklären, wie sie eine System namens DeepStereo, die kann eine Reihe von Bildern von einem Ort anschauen und kombinieren sie zu einem nahtlosen Animation entwickelt haben.
Das nicht sehr verschieden von anderen ähnlichen Projekten, zum Beispiel mag dieses SIGGRAPH projizieren, dass Minen-Bilder aus dem Internet, Zeitabläufe zu schaffen. Nun, ist es wahr, dass DeepStero etwas wie ein Zeitraffer schafft. Außer, dass es sehen nicht um die Lücken zu füllen Vorhersage Teile des Bildes und Perspektiven es tatsächlich schafft neue Bilder in den Quelle-Fotos. Anstatt unsere Augen füllen die Lücken zwischen zwei unterschiedlichen Standbilder kann DeepStereo selbst "vorstellen" was da ist wie das Register es ausdrückt." "Im Gegensatz zu diesem früheren Arbeiten, lernen wir neue Ansichten direkt über eine neue Tiefe Architektur zu synthetisieren und benötigen keine bekannten Tiefe oder Ungleichheit als Trainingsdaten," Flynn und seine Co-Autoren schreiben.
Offensichtlich ist die Netzwerk-Architektur hinter diese Sache enorm komplex und basiert auf verschiedenen Präzedenzfälle. Aber die Autoren sagen uns ein wenig darüber, was hier los ist: Es gibt zwei separate "Türme", oder Netzwerk-Architekturen, bei der Arbeit. Man macht eine Vorhersage über die Tiefe der Pixel anhand der verfügbaren 2D Daten. Andererseits macht eine Vorhersage über die Farbe. Zusammen bilden sie eine Vorhersage über die Tiefe und die Farben der Formen in den 2D Bildern, letztlich eine vollständige Synthese video.
Beobachten Sie unten, und du wirst sehen, wo DeepStereo ausgelöst wird, bis: Momente wo Ecken unscharf oder pixelig. "[R] wo der Algorithmus nicht zuversichtlich ist egionen tendenziell, unscharf sein, anstatt Erfülltsein mit verzogen oder verzerrte Eingabe Pixel," erklärt das Team. Es gibt sogar einen Trick für die Erstellung von Objekten, die unscharf sind in die Quellbilder. "Verschieben von Objekten, die häufig in den Trainingsdaten auftreten, sind anmutig durch unser Modell behandelt: sie erscheinen unscharf in einer Weise, die Bewegungsunschärfe hervorruft."
Natürlich, das Endprodukt – Augen ohne Wissen von was nötig war, um es zu schaffen – sieht nicht alles, was anders als ein Zeitraffer. Aber zu wissen, dass so viel von diesen Videos sind von Grund auf neu erstellt, durch einen tief-Lernalgorithmus macht eine banale Tour von Street View ziemlich außergewöhnlich.
Kontaktieren Sie den Autor unter [email protected].