Alexa, wie funktioniert Siri? Sprachsteuerung erklärt

Die Welt bewegt sich in Richtung Sprachbefehle für alles, aber wie funktioniert die Sprachsteuerung genau? Warum ist es so störrisch und eingeschränkt? Hier ist, was Sie als Laienbenutzer wissen müssen.

Wir können jetzt mit fast allen unseren Gadgets sprechen, aber genau wie funktioniert es? Wenn du fragst "What song is this?" Oder "Call Mom" sagst, passiert ein Wunder der modernen Technik. Und obwohl es sich anfühlt, als wäre es auf dem neuesten Stand, reicht die Idee, mit Geräten zu sprechen, schon Jahrzehnte zurück - fast so weit wie Jetpacks in Science Fiction!

Heute liegt der Schwerpunkt der sprachgesteuerten Datenverarbeitung auf Smartphones. Apple, Amazon, Microsoft und Google stehen an der Spitze der Kette, jeder bietet seinen eigenen Weg, mit Elektronik zu sprechen. Sie wissen, wer sie sind: Siri, Alexa, Cortana und das namenlose "Ok, Google". Was eine große Frage aufwirft ...

Wie nimmt ein Gerät gesprochene Worte und verwandelt sie in Befehle, die er verstehen kann? Im Wesentlichen kommt es auf Mustervergleich und Vorhersagen basierend auf diesen Mustern. Genauer gesagt ist die Spracherkennung eine komplexe Aufgabe, die aus der akustischen Modellierung und Sprachmodellierung kommt .

Akustische Modellierung: Wellenformen und Telefone

Wellenform

Akustische Modellierung ist der Prozess, bei dem eine Wellenform von Sprache aufgenommen und mit statistischen Modellen analysiert wird. Die gebräuchlichste Methode hierfür ist Hidden Markov Modeling, die in der sogenannten "Aussprache-Modellierung" verwendet wird, um die Sprache in Bestandteile, die als Telefone bezeichnet werden, zu zerlegen (nicht mit tatsächlichen Telefongeräten zu verwechseln). Microsoft ist seit vielen Jahren ein führender Forscher in diesem Bereich.

Hidden-Markov-Modellierung: Wahrscheinlichkeitszustände

Hidden Markov Modeling ist ein mathematisches Vorhersagemodell, bei dem der aktuelle Zustand durch Analyse der Ausgabe bestimmt wird. Wikipedia hat ein großartiges Beispiel mit zwei Freunden.

Stellen Sie sich zwei Freunde vor - Lokal Friend und Remote Friend - die in verschiedenen Städten leben. Ein lokaler Freund möchte herausfinden, wie das Wetter ist, in dem Remote Friend lebt, aber Remote Friend möchte nur darüber reden, was er an diesem Tag getan hat: gehen, einkaufen oder putzen. Die Wahrscheinlichkeit jeder Aktivität hängt vom Wetter des Tages ab.

Versteckte Markov-Modellierung

Vorgeben, dass dies die einzige verfügbare Information ist. Damit kann Local Friend Trends in der täglichen Wetterentwicklung finden und anhand dieser Trends kann sie fundierte Vermutungen darüber anstellen, wie das heutige Wetter auf der Aktivität ihres Freundes basiert. (Sie können ein Diagramm des obigen Systems sehen.)

Wenn Sie ein komplexeres Beispiel wünschen, sehen Sie sich dieses Beispiel auf Matlab an. Bei der Spracherkennung vergleicht dieses Modell im Wesentlichen jeden Teil der Wellenform mit dem, was vorher kommt und was danach kommt, und mit einem Wörterbuch von Wellenformen, um herauszufinden, was gesagt wird.

Im Wesentlichen, wenn Sie einen "th" Sound machen, wird es diesen Sound gegen die wahrscheinlichsten Sounds prüfen, die normalerweise davor und danach kommen. Vielleicht bedeutet das, dass man gegen den "e" Sound, den "at" Sound usw. sucht. Wenn das Muster richtig übereinstimmt, hat es dann dein ganzes Wort. Dies ist eine übermäßige Vereinfachung, aber Sie können die gesamte Erklärung von Microsoft hier sehen.

Sprachmodellierung: Mehr als nur Sound

Acoustic Modeling hilft Ihnen, Ihren Computer besser zu verstehen, aber was ist mit Homonymen und regionalen Variationen in der Aussprache? Hier kommt das Language Modeling ins Spiel. Google hat auf diesem Gebiet viel Forschung betrieben, hauptsächlich durch die Verwendung von N-Gram Modeling .

Wenn Google versucht, Ihre Sprache zu verstehen, basiert dies auf Modellen, die auf der umfangreichen Datenbank für Sprachsuche und YouTube-Transkriptionen basieren. All diese lustigen Videounterschriften haben Google geholfen, seine Wörterbücher zu entwickeln. Außerdem nutzten sie das GOOG-411, um Informationen darüber zu sammeln, wie Menschen sprechen.

shutterstock_70757203

All diese Sprachsammlung hat eine Vielzahl von Aussprachen und Dialekten hervorgebracht, die für ein robustes Wörterbuch von Wörtern und wie sie klingen. Dies ermöglicht Übereinstimmungen, die eine stark reduzierte Fehlerrate als Brute-Force-Matching basierend auf rohen Wahrscheinlichkeiten haben. Sie können hier eine kurze Beschreibung ihrer Methoden lesen.

Während Google auf diesem Gebiet führend ist, werden andere mathematische Modelle entwickelt, einschließlich kontinuierlicher Raummodelle und positionaler Sprachmodelle, bei denen es sich um fortschrittlichere Techniken handelt, die aus der Forschung in künstlicher Intelligenz hervorgegangen sind. Diese Methoden basieren darauf, die Art von Argumentation zu wiederholen, die Menschen tun, wenn sie einander zuhören. Diese sind sowohl in Bezug auf die Technologie, die hinter ihnen steckt, als auch in Bezug auf die Mathematik und das Programmieren, die benötigt werden, um diese Modelle abzubilden, viel fortgeschrittener.

N-Gramm-Modellierung: Wahrscheinlichkeit trifft Speicher

N-gram Modeling basiert auf Wahrscheinlichkeiten, aber es verwendet ein existierendes Wörterbuch von Wörtern, um einen verzweigenden Baum von Möglichkeiten zu erzeugen, der dann aus Gründen der Effizienz geglättet wird. In gewisser Weise bedeutet dies, dass N-gram Modeling viel Unsicherheit in der oben erwähnten Hidden-Markov-Modellierung beseitigt.

Wie oben erwähnt, kommt die Stärke dieser Methode von einem großen Wörterbuch mit Wörtern und Verwendung, nicht nur von primitiven Lauten . Dies gibt dem Programm die Möglichkeit, den Unterschied zwischen Homophonen wie "Beat" und "Beet" zu unterscheiden. Es ist kontextabhängig, was bedeutet, dass wenn man über die Ergebnisse der letzten Nacht spricht, das Programm keine Worte über Borschtsch ausspricht.

Aber diese Modelle sind nicht die besten für die Sprache, hauptsächlich aufgrund von Problemen mit Wahrscheinlichkeiten von Wörtern in längeren Sätzen. Wenn Sie einem Satz mehr Wörter hinzufügen, wird dieses Modell ein wenig ausgenutzt, da Ihre ersten Wörter wahrscheinlich nicht alles geladen haben, was für Ihren vollständigen Gedanken benötigt wird.

Es ist jedoch einfach und einfach zu implementieren, was es zu einer großartigen Ergänzung für ein Unternehmen wie Google macht, das es genießt, Server mit Rechenproblemen zu werfen. Sie können weiterlesen auf N-Gramm Modelieng an der Universität von Washington, oder Sie können einen Vortrag bei Coursera beobachten.

Schreien bei Wolken: Apps & Geräte

Jeder, der Siri benutzt, kennt die Frustration einer langsamen Netzwerkverbindung. Dies liegt daran, dass Ihre Befehle an Siri über das Netzwerk gesendet werden, um von Apple entschlüsselt zu werden. Cortana für Windows Phone erfordert auch eine Netzwerkverbindung, um ordnungsgemäß zu funktionieren. Im Gegensatz dazu ist Amazon Echo nur ein Bluetooth-Lautsprecher ohne Internet.

Warum der Unterschied? Weil Siri und Cortana Hochleistungsserver benötigen, um Ihre Sprache zu entschlüsseln. Könnte es auf Ihrem Telefon oder Tablet gemacht werden? Sicher, aber Sie würden dabei Ihre Leistung und Akkulaufzeit verlieren. Es macht nur mehr Sinn, die Verarbeitung auf dedizierte Maschinen zu verlagern.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Stellen Sie es sich so vor: Ihr Befehl ist ein Auto, das im Schlamm steckt. Du könntest es wahrscheinlich mit genügend Zeit und Mühe selbst durchbringen, aber es wird Stunden dauern und dich erschöpft verlassen. Stattdessen rufen Sie Pannenhilfe an und ziehen in wenigen Minuten Ihr Auto aus. Der Nachteil ist, dass Sie den Anruf tätigen und auf sie warten müssen, aber es ist immer noch schneller und weniger anstrengend.

Desktop-Modelle wie Nuance verwenden aufgrund der leistungsfähigeren Hardware tendenziell lokale Ressourcen. Schließlich, mit den Worten von Steve Jobs, ist Ihr Desktop ein Lastwagen. (Das macht es ein bisschen albern, dass OS X Server für seine Verarbeitung verwendet.) Wenn Sie also Sprache und Sprache verarbeiten müssen, ist es bereits gut genug ausgestattet, um es alleine zu verarbeiten.

Auf der anderen Seite erlaubt Android Entwicklern, Offline-Spracherkennung in ihre Apps zu integrieren. Google mag es, der Technologie voraus zu sein, und Sie können wetten, dass die anderen Plattformen diese Fähigkeit erlangen werden, wenn ihre Hardware leistungsfähiger wird. Niemand mag es, wenn schlechte Abdeckung oder schlechter Empfang ihr Gerät lobotomisiert.

Beginnen Sie jetzt mit Sprachbefehlen

Jetzt, wo Sie die grundlegenden Konzepte kennen, sollten Sie mit Ihren verschiedenen Geräten herumspielen. Testen der neuen Spracheingabe in Google Text & Tabellen Wie Spracheingabe die beste neue Funktion von Google Text & Tabellen ist Wie Spracheingabe die beste neue Funktion von Google Text & Tabellen ist Die Spracherkennung hat sich in den letzten Jahren sprunghaft verbessert. Anfang der Woche hat Google die Spracheingabe in Google Text & Tabellen eingeführt. Aber ist es gut? Lass es uns herausfinden! Weiterlesen . Als ob die WebOffice-Suite nicht bereits leistungsfähig genug wäre, können Sie mit der Sprachsteuerung Ihre Dokumente vollständig diktieren und formatieren. Dies erweitert die leistungsstarke Technologie, die sie bereits für Chrome und Android entwickelt haben.

Weitere Ideen sind die Einrichtung Ihres Mac für die Verwendung von Sprachbefehlen. Verwenden von Sprachbefehlen auf Ihrem Mac Verwenden von Sprachbefehlen auf Ihrem Mac Weitere Informationen und Einrichten von Amazon Echo mit automatisiertem Checkout Wie Amazon Echo Ihr Zuhause zu einem Smart Home macht Wie Amazon Echo kann Ihr Zuhause zu einem Smart Home machen Smart Home-Technologie steckt noch in den Kinderschuhen, aber ein neues Produkt von Amazon namens "Echo" könnte dazu beitragen, es in den Mainstream zu bringen. Weiterlesen . Lebe in der Zukunft und umarme deine Gadgets - auch wenn du gerade mehr Papierhandtücher bestellst. Wenn Sie ein Smartphone-Süchtiger sind, haben wir auch Tutorials für Siri 8 Dinge, die Sie wahrscheinlich nicht realisiert haben Siri könnte 8 Dinge tun, die Sie wahrscheinlich nicht realisiert haben Siri könnte Siri zu einem der prägenden Features des iPhones werden, aber dafür viele Leute, es ist nicht immer das nützlichste. Während einige davon auf die Einschränkungen der Spracherkennung zurückzuführen ist, ist die ... Weiterlesen, Cortana 6 Coolsten Dinge, die Sie mit Cortana in Windows 10 steuern können 6 Coolste Dinge, die Sie mit Cortana in Windows 10 steuern können Cortana kann Ihnen helfen gehen Sie freihändig unter Windows 10. Sie können Ihre Dateien und das Internet durchsuchen lassen, Berechnungen durchführen oder die Wettervorhersage abrufen. Hier decken wir einige ihrer cooleren Fähigkeiten ab. Lesen Sie mehr und Android OK, Google: 20+ nützliche Dinge, die Sie zu Ihrem Android Phone sagen können OK, Google: 20+ nützliche Dinge, die Sie zu Ihrem Android Phone sagen können Langsam, ohne uns zu bemerken, ist die Zukunft angekommen. Weiterlesen .

Was ist Ihre bevorzugte Verwendung der Sprachsteuerung? Lassen Sie es uns in den Kommentaren wissen.

Bildnachweis: T-flex über Shutterstock, Terencehonles über Wikimedia Foundation, Arizona State, Cienpies Design über Shutterstock