Ohjelmisto- ja laitteistopohjaisen puheenkäsittelyratkaisun far field -suorituskyvyn vertailu
Ihamäki, Mika (2020)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2020111122621
https://urn.fi/URN:NBN:fi:amk-2020111122621
Tiivistelmä
Opinnäytetyössä tutkittiin laitteisto- ja ohjelmistopohjaisten puheenkäsittelyratkaisujen far field -
suorituskykyä puheohjauskäyttöliittymän tehtävissä ja vertailtiin näitä keskenään. Referenssijärjestelmä, johon suorituskykytuloksia peilattiin, oli puheohjauskäyttöliittymä ilman puheenkäsittelyratkaisua.
Suorituskykytutkimuksen tueksi selvitettiin kirjallisuudesta periaatteita tyypillisistä puheenkäsittelyratkaisun sisältävistä algoritmeista, kuten GSC-keilanmuodostus-, jälkisuodatus sekä jälkikaiunnanpoistoalgoritmeista. Lisäksi käytiin läpi puheohjauskäyttöliittymän muut osat, joita tarvitaan puheohjauskäyttöliittymän toimintaan: mikrofonit, audiorajapinnat, ASR (Automatic Speech Recognition) ja NLU (Natural Language Understanding).
Tuloksista saatiin ymmärrys laitteisto- ja ohjelmistopohjaisen ratkaisun kyvykkyydestä kahden mikrofonin puheohjauskäyttöliittymissä. Ohjelmistopohjainen ratkaisu osoittautui epävakaaksi kahdella
mikrofonilla, koska FRR-prosentti (False Rejection Rate) vaihteli 6 %:ista 67 %:iin. Ratkaisuksi
osoitettiin, miten mikrofonimatriisin vaihtaminen lineaarisesta pyöreään ja tällöin myös mikrofonien
lukumäärän nosto kahdesta kolmeen käänsi ohjelmistopohjaisen ratkaisun epävakaasta vakaaksi
puheenkäsittelyratkaisuksi. Tällöin FRR-prosentti vaihteli 1 %:sta 8 %:iin. Jatkokehitykseksi esitettiin erityyppisen keilanmuodostusalgoritmin soveltamista kahden mikrofonin puheenohjauskäyttöliittymäjärjestelmässä.
suorituskykyä puheohjauskäyttöliittymän tehtävissä ja vertailtiin näitä keskenään. Referenssijärjestelmä, johon suorituskykytuloksia peilattiin, oli puheohjauskäyttöliittymä ilman puheenkäsittelyratkaisua.
Suorituskykytutkimuksen tueksi selvitettiin kirjallisuudesta periaatteita tyypillisistä puheenkäsittelyratkaisun sisältävistä algoritmeista, kuten GSC-keilanmuodostus-, jälkisuodatus sekä jälkikaiunnanpoistoalgoritmeista. Lisäksi käytiin läpi puheohjauskäyttöliittymän muut osat, joita tarvitaan puheohjauskäyttöliittymän toimintaan: mikrofonit, audiorajapinnat, ASR (Automatic Speech Recognition) ja NLU (Natural Language Understanding).
Tuloksista saatiin ymmärrys laitteisto- ja ohjelmistopohjaisen ratkaisun kyvykkyydestä kahden mikrofonin puheohjauskäyttöliittymissä. Ohjelmistopohjainen ratkaisu osoittautui epävakaaksi kahdella
mikrofonilla, koska FRR-prosentti (False Rejection Rate) vaihteli 6 %:ista 67 %:iin. Ratkaisuksi
osoitettiin, miten mikrofonimatriisin vaihtaminen lineaarisesta pyöreään ja tällöin myös mikrofonien
lukumäärän nosto kahdesta kolmeen käänsi ohjelmistopohjaisen ratkaisun epävakaasta vakaaksi
puheenkäsittelyratkaisuksi. Tällöin FRR-prosentti vaihteli 1 %:sta 8 %:iin. Jatkokehitykseksi esitettiin erityyppisen keilanmuodostusalgoritmin soveltamista kahden mikrofonin puheenohjauskäyttöliittymäjärjestelmässä.