Puheentunnistus Pepper-robotissa
Seeste, Ville (2019)
Seeste, Ville
2019
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-201905109138
https://urn.fi/URN:NBN:fi:amk-201905109138
Tiivistelmä
Insinöörityössä tutustuttiin puheentunnistusjärjestelmien toimintaperiaatteisiin. Tavoitteena oli testata kolmannen osapuolen tarjoaman puheentunnistuspalvelun käyttöä Pepper-robotissa. Palvelun tulisi pystyä vapaaseen puheentunnistukseen suomen kielellä. Tarkoitus oli myös arvioida, kannattaako palvelua ottaa käyttöön robotin ensisijaiseksi puheentunnistusjärjestelmäksi.
Työssä testattiin Google Cloudin tarjoamia puheentunnistuspalveluita. Kokonaisen äänitiedoston lähettäminen palveluun osoittautui liian hitaaksi vaihtoehdoksi Pepperin keskustelusovelluksessa. Tämän takia tarkempaan testaukseen valittiin Googlen puheentunnistuksen nopeampi versio, jossa lähetetään äänivirtaa palvelulle.
Palvelua testattaessa havaittiin, että robotin päässä sijaitsevat tuulettimet synnyttävät puheentunnistuksen kannalta haitallista häiriöääntä. Ongelmaa lähdettiin korjaamaan vähentämällä haitallisen häiriöäänen määrää äänisignaalissa. Häiriöääntä yritettiin vähentää käyttämällä kaistanpäästösuodatinta ja Fourier-analyysiin perustuvaa häiriönpoistoalgoritmia.
Alkuperäisen ja käsitellyn puheen puheentunnistuksesta saatuja vastauksia vertailtiin käyttäen niiden WER-sanavirhetuloksia. Tuloksista selvisi, että kokonaisen äänitiedoston lähettäminen palveluun on tarkempaa kuin puheen lähettäminen äänivirtana. Havaittiin myös, että kaistanpäästösuodattimella ei ollut merkittävää vaikutusta puheentunnistustarkkuuteen. Häiriönpoistoalgoritmin käyttö paransi tarkkuutta äänivirtaa lähetettäessä mutta ei silloin, kun palvelulle lähetettiin kokonainen äänitiedosto.
Tehtyjen testien perusteella arvioitiin, että Googlen tarjoamaa ulkoista puheentunnistusta ei kannata ottaa robotin ensisijaiseen käyttöön. Työstä saatuja tuloksia voidaan hyödyntää Pepper-robotin ulkoisen puheentunnistamisen parannuksissa.
Työssä testattiin Google Cloudin tarjoamia puheentunnistuspalveluita. Kokonaisen äänitiedoston lähettäminen palveluun osoittautui liian hitaaksi vaihtoehdoksi Pepperin keskustelusovelluksessa. Tämän takia tarkempaan testaukseen valittiin Googlen puheentunnistuksen nopeampi versio, jossa lähetetään äänivirtaa palvelulle.
Palvelua testattaessa havaittiin, että robotin päässä sijaitsevat tuulettimet synnyttävät puheentunnistuksen kannalta haitallista häiriöääntä. Ongelmaa lähdettiin korjaamaan vähentämällä haitallisen häiriöäänen määrää äänisignaalissa. Häiriöääntä yritettiin vähentää käyttämällä kaistanpäästösuodatinta ja Fourier-analyysiin perustuvaa häiriönpoistoalgoritmia.
Alkuperäisen ja käsitellyn puheen puheentunnistuksesta saatuja vastauksia vertailtiin käyttäen niiden WER-sanavirhetuloksia. Tuloksista selvisi, että kokonaisen äänitiedoston lähettäminen palveluun on tarkempaa kuin puheen lähettäminen äänivirtana. Havaittiin myös, että kaistanpäästösuodattimella ei ollut merkittävää vaikutusta puheentunnistustarkkuuteen. Häiriönpoistoalgoritmin käyttö paransi tarkkuutta äänivirtaa lähetettäessä mutta ei silloin, kun palvelulle lähetettiin kokonainen äänitiedosto.
Tehtyjen testien perusteella arvioitiin, että Googlen tarjoamaa ulkoista puheentunnistusta ei kannata ottaa robotin ensisijaiseen käyttöön. Työstä saatuja tuloksia voidaan hyödyntää Pepper-robotin ulkoisen puheentunnistamisen parannuksissa.