Alexa, hoe werkt Siri? Spraakbesturing uitgelegd

De wereld evolueert naar spraakopdrachten voor alles, maar hoe werkt stembesturing precies? Waarom is het zo glitchy en beperkt? Hier is wat je moet weten als een leek gebruiker.

De wereld evolueert naar spraakopdrachten voor alles, maar hoe werkt stembesturing precies?  Waarom is het zo glitchy en beperkt?  Hier is wat je moet weten als een leek gebruiker.
Advertentie

We kunnen nu bijna al onze gadgets gebruiken, maar hoe werkt het precies? Als je vraagt: "Welk lied is dit?" Of "Roep mam", gebeurt er een wonder van moderne technologie. En hoewel het voelt alsof het op het scherpst van de snede staat, gaat dit idee van praten met apparaten al tientallen jaren terug - bijna zo ver als jetpacks in science fiction!

Tegenwoordig is het grootste deel van de aandacht die wordt besteed aan spraakgestuurde computing op smartphones. Apple, Amazon, Microsoft en Google staan ​​aan de top van de keten, elk met een eigen manier om met elektronica te praten. Je weet wie ze zijn: Siri, Alexa, Cortana en de naamloze "Ok, Google" wezen. Wat een grote vraag oproept ...

Hoe neemt een apparaat gesproken woorden en verandert het in commando's die het kan begrijpen? In essentie komt het neer op het matchen van patronen en het maken van voorspellingen op basis van die patronen. Meer specifiek is spraakherkenning een complexe taak die voortkomt uit akoestische modellering en taalmodellering .

Akoestische modellering: golfvormen en telefoons

golfvorm

Akoestische Modellering is het proces van het nemen van een golfvorm van spraak en het analyseren ervan met behulp van statistische modellen. De meest gebruikelijke methode hiervoor is Hidden Markov Modeling, die wordt gebruikt in zogenaamde uitspraakmodellering om spraak te splitsen in componentonderdelen die telefoons worden genoemd (niet te verwarren met echte telefoontoestellen). Microsoft is al vele jaren een toonaangevende onderzoeker op dit gebied.

Verborgen Markov-modellering: waarschijnlijkheidsstaten

Hidden Markov Modelling is een voorspellend wiskundig model waarbij de huidige toestand wordt bepaald door de output te analyseren. Wikipedia heeft een geweldig voorbeeld met behulp van twee vrienden.

Stel je voor twee vrienden - Lokale vriend en externe vriend - die in verschillende steden wonen. Local Friend wil weten hoe het weer er uitziet waar Remote Friend woont, maar Remote Friend wil alleen praten over wat hij die dag heeft gedaan: lopen, winkelen of schoonmaken. De waarschijnlijkheid van elke activiteit afhankelijk van het weer van de dag.

Verborgen Markov-modellering

Stel je voor dat dit de enige beschikbare informatie is. Hiermee kan Local Friend trends vinden in hoe het weer van dag tot dag verandert en door deze trends te gebruiken, kan ze beginnen met gissen naar wat het weer van vandaag zal zijn op basis van de activiteit van haar vriend gisteren. (U kunt een diagram van het systeem hierboven zien.)

Als u een meer gecompliceerd voorbeeld wilt, bekijk dan dit voorbeeld op Matlab. Bij stemherkenning vergelijkt dit model in wezen elk deel van de golfvorm met wat eerder komt en wat erna komt, en tegen een woordenboek van golfvormen om erachter te komen wat er wordt gezegd.

In wezen, als je een "e" -geluid maakt, zal het dat geluid vergelijken met de meest waarschijnlijke geluiden die er meestal voor en erna komen. Misschien betekent dat controleren met het "e" -geluid, het "bij" -geluid, enzovoort. Wanneer het patroon goed overeenkomt, heeft het dan je hele woord. Dit is een overdreven vereenvoudiging, maar je kunt de hele uitleg van Microsoft hier zien.

Taalmodellering: meer dan geluid

Akoestische modellering gaat een lange weg om je computer te helpen je te begrijpen, maar hoe zit het met homoniemen en regionale verschillen in uitspraak? Dat is waar taalmodellering in het spel komt. Google heeft op dit gebied veel onderzoek gedaan, voornamelijk door het gebruik van N-grams modellering .

Wanneer Google uw spraak probeert te begrijpen, doet het dit op basis van modellen afgeleid van de enorme bank van Voice Search en YouTube-transcripties. Al die hilarisch verkeerde videotitels hebben Google echt geholpen om hun woordenboeken te ontwikkelen. Ook gebruikten ze de overleden GOOG-411 om informatie te verzamelen over hoe mensen spreken.

shutterstock_70757203

Al deze taalcollecties creëerden een groot aantal uitspraken en dialecten, wat zorgde voor een robuust woordenwoordenboek en hoe ze klinken. Dit zorgt voor matches met een sterk gereduceerde foutmarge dan brute force-matching op basis van ruwe kansen. U kunt hier een kort overzicht van hun methoden lezen.

Hoewel Google toonaangevend is op dit gebied, zijn er andere wiskundige modellen die worden ontwikkeld, waaronder continue ruimtemodellen en positionele taalmodellen, die meer geavanceerde technieken zijn die voortkomen uit onderzoek in kunstmatige intelligentie. Deze methoden zijn gebaseerd op het repliceren van het soort redenering dat mensen doen als ze naar elkaar luisteren. Deze zijn veel geavanceerder, zowel wat betreft de achterliggende technologie, maar ook de wiskunde en programmering die nodig zijn om deze modellen in kaart te brengen.

N-Gram modellering: waarschijnlijkheid voldoet aan geheugen

N-gram-modellering werkt op basis van waarschijnlijkheden, maar het gebruikt een bestaand woordenboek van woorden om een ​​vertakkende boom van mogelijkheden te creëren, die vervolgens wordt gladgestreken omwille van efficiëntie. In zekere zin betekent dit dat N-gram modellering veel van de onzekerheid wegneemt in de eerder genoemde Hidden Markov Modeling.

Zoals hierboven opgemerkt, komt de kracht van deze methode voort uit het hebben van een groot woordenboek van woorden en gebruik, en niet alleen uit primitieve geluiden . Dit geeft het programma de mogelijkheid om het verschil te zien tussen homofonen, zoals "beat" en "beet". Het is contextueel, wat betekent dat wanneer je het hebt over de scores van gisteravond, het programma geen woorden over Borsjt oproept.

Maar deze modellen zijn eigenlijk niet de beste voor taal, vooral vanwege problemen met de waarschijnlijkheid van woorden in langere zinnen. Naarmate je meer woorden aan een zin toevoegt, wordt dit model een beetje uitgeschakeld, omdat je eerste woorden waarschijnlijk niet alles hebben geladen wat je nodig hebt voor je volledige gedachte.

Het is echter eenvoudig en gemakkelijk te implementeren, waardoor het een geweldige match is voor een bedrijf als Google dat graag servers werpt voor computerproblemen. Je kunt verder lezen over N-gram Modelieng aan de Universiteit van Washington, of je kunt een lezing bij Coursera bekijken.

Shouting at Clouds: Apps & apparaten

Iedereen die Siri heeft gebruikt, kent de frustratie van een trage netwerkverbinding. Dit komt omdat je opdrachten naar Siri via het netwerk worden verzonden om door Apple te worden gedecodeerd. Cortana voor Windows Phone vereist ook een netwerkverbinding om goed te kunnen functioneren. De Echo van Amazon daarentegen is gewoon een Bluetooth-luidspreker zonder internet.

Waarom het verschil? Omdat Siri en Cortana zware servers nodig hebben om uw spraak te decoderen. Kan het worden gedaan op je telefoon of tablet? Natuurlijk, maar je zou je prestaties en de levensduur van de batterij in het proces doden. Het is gewoon logischer om de verwerking te verplaatsen naar speciale machines.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Zie het op deze manier: uw opdracht is een auto die in de modder vastzit. Je zou het waarschijnlijk zelf kunnen uitdrijven met voldoende tijd en moeite, maar het zal uren duren en je uitgeput achterlaten. In plaats daarvan bel je hulp bij pech onderweg en halen ze je auto binnen een paar minuten uit. Het nadeel is dat je moet bellen en op ze moet wachten, maar het is nog steeds sneller en minder belastend.

Desktopmodellen zoals Nuance hebben de neiging lokale bronnen te gebruiken vanwege de krachtigere hardware. Immers, in de woorden van Steve Jobs is je bureaublad een vrachtwagen. (Wat het een beetje dwaas maakt dat OS X servers gebruikt voor de verwerking ervan.) Dus als je taal en stem moet verwerken, is het al goed genoeg uitgerust om het zelf aan te kunnen.

Aan de andere kant staat Android ontwikkelaars toe om offline spraakherkenning in hun apps op te nemen. Google houdt ervan de technologie voor te zijn, en je kunt er zeker van zijn dat de andere platforms deze mogelijkheid zullen krijgen naarmate hun hardware krachtiger wordt. Niemand vindt het leuk als slechte dekking of slechte ontvangst hun apparaat lobotomiseren.

Begin nu met spraakopdrachten

Nu je de fundamentele concepten kent, zou je met je verschillende apparaten moeten spelen. Probeer het nieuwe typen van stemmen in Google Documenten Hoe stemmen met stem de nieuwe functie van Google Docs is Hoe typen met stem de nieuwe functie van Google Docs is Spraakherkenning is de afgelopen jaren met sprongen vooruit gegaan. Eerder deze week introduceerde Google eindelijk spraaktypen in Google Documenten. Maar is het goed? Laten we het uitzoeken! Lees verder . Alsof de Web Office-suite nog niet krachtig genoeg was, kunt u met spraakbesturing uw documenten volledig dicteren en formatteren. Dit is een uitbreiding op de krachtige technologie die ze al voor Chrome en Android hebben ontwikkeld.

Andere ideeën zijn het instellen van uw Mac om spraakopdrachten te gebruiken Spraakopdrachten gebruiken op uw Mac Spraakopdrachten gebruiken op uw Mac Lees Meer en het opzetten van uw Amazon Echo met geautomatiseerde controle Hoe Amazon Echo uw huis een slim huis maakt Hoe Amazon Echo kan van uw huis een smart home maken Smart home-technologie is nog in de kinderschoenen, maar een nieuw product van Amazon, genaamd "Echo", kan helpen om het in de mainstream te brengen. Lees verder . Leef in de toekomst en omarm het praten met je gadgets - zelfs als je gewoon meer papieren handdoeken bestelt. Als je een smartphone-verslaafde bent, hebben we ook tutorials voor Siri 8 Dingen die je waarschijnlijk niet hebt gerealiseerd Siri 8 dingen kan doen die je waarschijnlijk niet hebt gerealiseerd Siri Could Do Siri is een van de bepalende functies van de iPhone geworden, maar voor veel mensen, het is niet altijd de meest bruikbare. Terwijl een deel hiervan te wijten is aan de beperkingen van stemherkenning, de eigenaardigheid van het gebruik ... Lees meer, Cortana 6 coolste dingen die je kunt besturen met Cortana in Windows 10 6 Leukste dingen die je kunt besturen met Cortana in Windows 10 Cortana kan je helpen ga handsfree in Windows 10. Je kunt haar laten zoeken in je bestanden en internet, berekeningen maken of de weersvoorspelling weergeven. Hier behandelen we enkele van haar koelere vaardigheden. Meer lezen en Android OK, Google: 20+ nuttige dingen die u kunt zeggen op uw Android-telefoon OK, Google: 20+ nuttige dingen die u kunt zeggen op uw Android-telefoon Langzaam, zonder dat wij het merken, is de toekomst aangebroken. Lees verder .

Wat is je favoriete gebruik van stembesturing? Laat het ons weten in de comments.

Beeldcredits: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock

In this article