Die Innovatoren: Computer, Parteigenossen gelehrt werden können?
Technologie, entwickelt an der Universität von East Anglia könnte denjenigen helfen, die verloren haben vor kurzem ihr Gehör – und beweisen, wer hat gesagt, was auf die Fußball-pitch
Wenn Zinedine Zidane, dem damaligen französischen, verpasste Italiens Marco Materazzi im WM-Finale, 2006 Kapitän wurde der Kampf schnell eines der berüchtigsten Ereignisse in der Geschichte des Fußballs. Was nicht klar war was der Franzose Zorn geweckt – Zidane, sagte seine Mutter war beleidigt, ein Vorwurf, der Materazzi energisch bestritten.
Der Kopfstoß bekam Zidane abgeschickt und Italien gewann das Spiel. Es war jedoch Technologie es zu identifizieren, was gesagt wurde, das Ergebnis sehr unterschiedlich sind, hätte Helen Bear glaubt. "Wenn eine Maschine eingebildet, bestand die andere Spieler [könnte] abgeschickt habe haben auch so es hätte 10 Männer gegeneinander in einem WM-Finale," sie argumentiert.
Bär gehört zu eine Reihe von Forschern an der University of East Anglia mit Schwerpunkt auf Möglichkeiten, Computer zu lehren lesen Volkspartei Lippen, Technologie, die in Artificial-Intelligence-Anwendungen verwendet werden kann.
Eine drei-Jahres-Studie an der University School of Computer-Studien könnte einen bedeutenden Fortschritt in der Wissenschaft hinter automatisierten Lip-Reading, die noch in einem frühen Stadium befindet. Die Technologie könnte helfen Menschen, die vor kurzem ihr Gehör verloren haben und auf einer grundlegenderen Ebene, es könnte verbessern unsere Interaktionen mit Gadgets, die in der Regel von hand gesteuert werden.
"Für diejenigen, die Post-lingual Hörverlust leiden, ist es ein viel schwerer für sie zu lernen, als jemand, der von Geburt an taub war rein, denn wenn Sie von Geburt an lernen Sie all diese visuelle Informationen umgeben sind abzulesen. Irgendeine Art von Technologie, die dabei helfen könnten von unschätzbarem Wert sein würde", sagt sie. In der Praxis könnte das System funktioniert mit der Kamera auf einem Smartphone zu lesen des Sprechers Lippen und dann Befehle durchführen.
Eines der wichtigsten Probleme der Forscher ist, dass einige der Klänge, die vorgenommen werden, wenn die Leute reden auf eine sehr ähnliche Mimik beziehen. Diese Formen, die der Mund macht werden als Visemes bezeichnet. Es gibt jedoch viele weitere Töne oder Phoneme, während der Rede.
Dies bedeutet, dass die Viseme mehrere Bedeutungen haben kann. Eine menschliche eingebildet muss herausfinden, was die eigentliche Bedeutung ist und stützt sich auch auf andere Informationen wie den Kontext von was gesprochen wird und Körpersprache. In ähnlicher Weise habe Maschinen arbeiten, um zu bestimmen, was gesagt wird, durch eine Analyse der Bewegung des Mundes das gleiche Problem, wenn die unterschiedlichen Klänge ähnliche Gesichts Auftritte haben. "Dies ist, wo wir diese Confusability bekommen", sagt Bär, der vor kurzem ihre Promotion abgeschlossen hat.
Der Durchbruch wurde bei der Suche nach einem neuen Weg, die Töne zu unterscheiden, die auf dem Gesicht ähneln durch feine Unterschiede zu identifizieren, welche Computer unterrichtet werden soll, zu erkennen. Auf diese Weise verschiedene Wörter können dann Gestalt annehmen und der Computer kann abzulesen, was eine Person sagt.
Die Entwicklung bedeutsam ist, sagt Prof. Richard Harvey, der mit Bären in der Forschung gearbeitet hat. "Lip-Reading ist eines der schwierigsten Probleme in der künstlichen Intelligenz, so es toll auf ein schwieriger Aspekt, die wie trainieren Sie Maschinen ist, die aussehen und Form der Lippen zu erkennen ist, Fortschritte zu machen", sagt er.
Die Möglichkeit der Maschinen in der Lage, Parteigenossen konnte Leuten erlauben, Steuergeräte ohne mit den Händen wie beim Autofahren. Eine Smartphone als Navi benutzt könnte Befehle noch abholen, auch wenn Hintergrund oder Motor Rauschen aus dem Lautsprecher übertönt. Und wer ist außen mit einem Telefon, dessen Aufforderung durch Windgeräusche gestört ist, könnte die Kamera selbst einschalten und abholen, was gesagt wird.
In anderen Bereichen der Forschung hat mit Fortschritten in der Technologie bedeutete, dass Lautstärkeregler in Autos können nun mit Gestensteuerung ähnlich denen von Spielautomaten manipuliert werden, und Herde können bald haben die Fähigkeit, die aktiviert oder deaktiviert werden, ohne berührt zu werden.
Bär sagt, dass die Realität des Geschehens irgendwie abgeschaltet ist, es möglich ist. "Ich sehe keinen Grund, warum Lip-Reading-Technologie wird nicht zu einem bestimmten Zeitpunkt vorhanden", sagt sie.
Mit die Möglichkeit, dass eine Maschine jemandes Lippen lesen kann und die Worte werden dann auf einem Bildschirm angezeigt wird unweigerlich Bedenken hinsichtlich der Privatsphäre über die Einsatzmöglichkeiten für diese neuen Teilbereich der künstlichen Intelligenz erhöhen.
"Der springende Punkt ist, dass die Maschine etwas lernt, als Menschen, die wir nicht selbst tun konnten, was ganz schön aufregend ist. Ich kenne einige Leute vorsichtig [über künstliche Intelligenz]. Meine persönliche Meinung ist, dass wenn Sie aufpassen, wenn Sie richtig etwas entwickeln und testen Sie es, so weit wie Sie können, sollte alles OK sein. Es ist alles darum, gute Software-Engineering-Methoden und Prinzipien", sagt Bär.
• Weitere Informationen über wie große Innovationszentrum innovative Unternehmen in Großbritannien und weltweit unterstützt, gehen in unser Archiv der Innovatoren Spalten auf die große Innovation Centre-Website.
- Dieser Artikel wurde am 25. April 2016 geändert. Helen Bear ist abgeschlossen, aber noch nicht ihre Doktorarbeit ausgezeichnet worden. Als solche kann nicht sie noch offiziell als Arzt bezeichnet werden.