Spracherkennung für Handys wird erwachsen
Spracherkennungstechnologie hat einen langen Weg in den letzten Jahren kommen,
und eines der schnellsten Gebiete des Wachstums ist der Handy-Markt.
Nun, die Verfügbarkeit von 3G aktiviert
Mobile Geräte mit schnellen, immer auf Internet-Verbindungen und die
Fähigkeit zur Modellierung Sprachsoftware mit Millionen von Handy-Nutzern – trainieren ein
Process genannte Crowd-sourcing – ist helfende Brennstoff eine neue Generation von mobile
Spracherkennungs-apps, die Arbeiten schnell und erstaunlich genau.
Rede
Spracherkennungs-Software gibt es schon seit Jahren, aber sie waren oft
frustrierend um zu verwenden, da sie in der Regel, Benutzer erforderlich zu "trainieren"
Sie für optimale Worterkennung oder, langsam zu sprechen.
"In den frühen Tagen kombiniert die Möglichkeiten der Technologie mit
die Rechenleistung der verschiedenen Vorrichtungen erforderlich, dass Sie haben
Ausbildung, so dass [Software] Daten über den jeweiligen Benutzer hätte
... und nicht verbrauchen zu viel Rechenleistung, "erklärt Mike Thompson
Senior Vice President und general Manager von Nuance Mobile, wodurch
Dragon Dictation und Dragon Search apps für das iPhone und iPad. (Lesen Sie
mehr iPad News.)
Aber die Rechenleistung der heutigen Smartphones
ist so, dass die Stimmtrainings nicht mehr erforderlich ist. Die digitale Stimme
Modelle, die die Grundlage des heutigen Spracherkennungs-Software sind
anspruchsvoll genug, dass sie lernen können – auf eigene Faust – ihre Nutzer
verbale Macken.
Sie sind auch schnell: Dragon Dictation, z. B. können transkribieren
Worte mit normaler Geschwindigkeit.
Die Macht der Massen
Mobile Spracherkennung apps haben auch noch andere Vorteile über ihre
älteren Desktop-Pendants.
Gehört die Fähigkeit, mit leistungsfähigen zentralen Computern kommunizieren oder
Server, die Informationen von Millionen von Nutzern kombinieren können und dann
Breite Verallgemeinerungen, die helfen, die apps insgesamt aufnahmebereiter zu machen
Wörter zu erkennen.
"Zum ersten Mal Sie an das Telefon sprechen setzen wir einen Cookie" – eine Art von
Digital-Tag – "auf Ihrem Gerät und wenn Sie etwas sagen, rufen wir Sie Ihre
persönliche Sprache Modell von unseren Servern und verwenden Sie es, besser zu werden
Genauigkeit,"sagte Dave Grannen, President und CEO der Spracherkennung
Software-Hersteller Vlingo, die hat auch eine app für das iPhone.
Eine einzelne Stimme Modell enthält Informationen über seinen Akzent und
einzigartige Weise der Aussprache bestimmter Wörter, unter anderem.
Die Server können die Stimme-Modelle von mehreren Rednern kombinieren, die
ähnliche Akzente zur Verbesserung der Genauigkeit für die Bevölkerung.
"Bist du aus Indien und Englisch als zweite Sprache auf
Vlingo, arbeiten wir auch ziemlich gestopft. Wenn Sie aus Deutschland zu sprechen
Englisch, es so gut funktioniert,"sagte Grannan TechNewsDaily.
Der Grund dafür? Vlingo hat viele indische sprechenden Benutzer, die
Deutschsprachigen Raum sind, so die Sprachmodell für Indianer in der Regel besser
als die deutschen.
Intelligente Anwendungen
Heutige Spracherkennungs-apps für Smartphones können auch von lernen.
Ihre Fehler. Wenn eine app eine Wort Fehlschreibungen, können Benutzer die Tastaturen verwenden.
auf ihren Geräten zu korrigieren Sie den Fehler und die Korrektur ist auf vermerkt.
der Server, so ist es weniger wahrscheinlich auftreten.
Dragon Dictation und Dragon Search auch achten, wo ein
Lautsprecher ist reden und können ergreifen, um Hintergrundgeräusche zu reduzieren so ein
Person, die Worte sind leichter verständlich.
"Wenn Sie in Ihrem Auto auf der Straße unterwegs sind, müssen Sie die
Fenster teilwegs unten oder das Radio eingeschaltet ist, oder gibt es eine andere Person in
das Auto mit Ihnen. Alle diese Arten von Klängen sind vorhersehbar und können
durch so genannte akustische Echounterdrückung beseitigt werden", sagte
Dragon Dictation Thompson.
Akustische Echounterdrückung ist ein Server-Side-Prozess und auch Vorteile
von Crowdsourcing. Je mehr Menschen, die sich ebenso, die apps im verwenden
lauten Umgebungen wird desto besser die Software im Hintergrund zu ignorieren
Lärm.
"Wie viele Formen von Software, wie Sie mehr Daten sammeln und
Kompetenz, sind Sie immer wieder zurück in die Produkte gießen "
Thompson sagte in einem Telefoninterview.
"Immer mainstream"
Von Vlingo Grannan Notizen, die es erst in den letzten Jahren so schnell seit
3G-fähige Handys sind allgegenwärtig geworden, dass Crowd-sourcing und
Server-seitige Stimme Analysen hat wirklich abgenommen.
"Bevor wir 3 G hatte, war es schwierig, dies zu tun", sagte Grannan.
In
die Zukunft wird tiefer Spracherkennungs-Software sein.
in einer Vielzahl von Geräten integriert, sagt Thompson.
"Du wirst sehen, eine große Anzahl von Geräten mit Rede ausrollen
Anerkennung in das Gerät integriert,"sagte er. "Es wird in integriert werden
Messaging-Systeme und die Suchfunktionen und alle apps auf einen
Telefon".
Dieser Trend ist bereits im Gange. Das iPhone von Apple
3GS, gehören zum Beispiel native Rede Anerkennung Fähigkeiten
das Benutzern Voice-dialing Menschen in ihren Adressbüchern.
Spracherkennung "wird immer Mainstream-Aufmerksamkeit, und das ist
Unser Geschäft in eine sehr positive Weise fahren,", sagte Thompson.
- 10
Tief greifende Innovationen voran - Extreme
Mobil: Furten, sprachgesteuerte Internet Funktion - Darüber hinaus
die Maus: 5 Wege werden wir Schnittstelle mit zukünftigen Computern