Kaip kompiuteriai perpranta žmonių kalbą?

Vis dažniau kompiuteriai gali perteikti žmonių kalbą. Nebestebina tai, kad kompiuteris gali parašyti diktuojamą elektroninį laišką. Žinoma, pakankamai dažnai tokie procesai palieka klaidų, tačiau būtina atsižvelgti į šio proceso sudėtingumą.

Kompiuteris turi įvertinti oro slėgio pokyčius (pvz. mikrofonu) ir juos iššifruoti. Nors kompiuterių gebėjimas atpažinti ir perteikti žmonių kalbą vis dar besivystantis procesas, Gizmodo.com siūlo susipažinti su septyniais pagrindiniais žingsniais, kuriuos kompiuteris turi įgyvendinti, siekdamas suvokti ir perteikti žmogaus kalbą.

1. Oro molekulių judėjimas perteikiamas skaičiais.

Garsas į mikrofoną patenka dėl oro slėgio pokyčių, besitęsiančios garso bangos. Kompiuteris įrašo garso bangos įvertinimą, išsaugo jį ir dar sykį įvertina. Jeigu tarp dviejų matavimų atsiranda pernelyg ilgas laiko tarpas, neužfiksuojami svarbūs garso bangos pokyčiai. Siekiant gauti tinkamą garso bangos įvertinimą, kompiuteris garsą turi įvertinti bent 8000 kartų per sekundę nors visavertis veikimas reikalauja kiek daugiau nei 40000 tūkstančių per vieną sekundę.

2. Atpažinimas, kurie iš šių garsų turi žmonių kalbos požymių

Atlikdamas pirmajame žingsnyje nurodytus garso įvertinimus, kompiuteris dar negali nustatyti, kurie iš sukeltų garsų yra žmogaus kalbėjimo padariniai. Daugybė matematinių procesų leidžia atpažinti, kurie iš garsų neatitinka žmogiškos kalbos požymių.

3. Garso bangų, leidžiančių atpažinti žmogaus kalbą, išskyrimas

Kalbėjimo sukeliamos garso bangos iš tikrųjų yra daugybės skirtingais dažniais pasireiškiančių garso bangų mišinys. Skirtingi garsų dažniai yra vienas iš svarbiausių veiksnių. Matematinės operacijos leidžia leidžia perteikti garso bangas pagrindinius požymius iliustruojančia statistika.

4. Anglų kalboje egzistuoja 40 garsinių kalbos elementų, kitaip vadinamų fonemomis. Kompiuteriai yra užprogramuoti atskirti skirtingus kalbos elementus. Visgi tai, kad fonemos pasižymi skirtingomis savybėmis ir, apskritai, didelę įtaką daro skirtingi žmonių akcentai, kompiuteriui tenka itin sudėtingas darbas: siekiant atskirti konkretų žodį, kompiuteris privalo turėti atskirą modelį kiekvienai fonemai ir pritaikyti juos skirtingoms situacijoms.

5.Žodžių spėjimas

Kompiuteris turi milžinišką žodžių sąrašą ir skirtingas versijas, kuriomis jis gali būti ištartas. Atliekamas savotiškas sugrupavimas, išskiriant fonemas atitinkančių žodžių grupę.

6. Labiausiai tikėtinos žodžių sekos nustatymas.

Kompiuteris pritaiko modelius dėl žodžių sekos tinkamumo – nustatoma kuri žodžių seka yra tinkamiausia.

7. Įgyvendinimas.

Turbūt visi, kuriems teko naudotis kalbos atpažinimo programomis, žino, kad klaidos yra neišvengiama proceso dalis. Netgi statistikos ir matematinių modelių pritaikymas kartais neleidžia atskirti itin panašių frazių, tačiau reikia pripažinti, kad pats kompiuterio gebėjimas „iš oro“ atpažinti ir perteikti žmogaus kalbą yra įspūdingas.

   

Facebook komentarai