Laajojen kielimallien käyttö puheohjauksessa
Sillanpää, Juha (2025)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202504106143
https://urn.fi/URN:NBN:fi:amk-202504106143
Tiivistelmä
Opinnäytetyön tarkoituksena oli tutkia ja testata laajojen kielimallien toimintaa puheohjauksessa sekä tehdä konseptitoteutuksena tietokoneohjelma, jota voidaan ohjata ihmisen puheella. Ohjelma ohjaisi toimeksiantajan Arctic Touch -päätelaitteen käyttöliittymää. Tavoitteena oli tutkia, miten kielimalit soveltuvat kääntämään suomen kieltä puheesta tekstiksi, mitä haasteita niihin liittyy ja voidaanko niitä hyödyntää toimeksiantajan ohjelmistotuotannossa. Toimeksiantajana on rovaniemeläinen Arctic Connect Oy.
Opinnäytetyö lähti liikkeelle toimeksiantajan tarpeesta selvittää, voidaanko päätelaitetta käyttää ilman ulkoisia ohjaimia. Tyypillisessä asiakaskontaktissa kosketusnäytön tai ulkoisten ohjaimien käyttö voi olla haastavaa. Puheohjauksella yritetään vastata tähän tarpeeseen.
Tietoperusteena käytiin läpi tekoälyn, laajojen kielimallien ja puheentunnistuksen teoriaa, käytäntöjä ja sovelluksia. Puheohjauksessa keskityttiin puheesta tekstiksi kielimalleihin, järjestelmän suunnitteluun sekä ihmisen ja koneen vuorovaikutukseen.
Opinnäytetyön lopputuloksena tehtiin ohjelma, joka mallintaa puheohjausjärjestelmän toimintaa ja käytti Whisper-kielimallia. Työn pohjalta voitiin päätellä, että kielimalleissa on ongelmia muun muassa puheen oikeassa tunnistuksessa, haamusanojen esiintymisessä sekä erikokoisten mallien kyvyissä ja nopeudessa. Tärkeimpänä päätelmänä todettiin kielimallin tarvitsevan näytönohjainta toimiakseen riittävän tarkasti ja nopeasti puheohjauksen kanssa suomen kielellä. Tästä syystä integraatio toimeksiantajan järjestelmiin rajattiin pois opinnäytetyön toteutuksesta.
Opinnäytetyö lähti liikkeelle toimeksiantajan tarpeesta selvittää, voidaanko päätelaitetta käyttää ilman ulkoisia ohjaimia. Tyypillisessä asiakaskontaktissa kosketusnäytön tai ulkoisten ohjaimien käyttö voi olla haastavaa. Puheohjauksella yritetään vastata tähän tarpeeseen.
Tietoperusteena käytiin läpi tekoälyn, laajojen kielimallien ja puheentunnistuksen teoriaa, käytäntöjä ja sovelluksia. Puheohjauksessa keskityttiin puheesta tekstiksi kielimalleihin, järjestelmän suunnitteluun sekä ihmisen ja koneen vuorovaikutukseen.
Opinnäytetyön lopputuloksena tehtiin ohjelma, joka mallintaa puheohjausjärjestelmän toimintaa ja käytti Whisper-kielimallia. Työn pohjalta voitiin päätellä, että kielimalleissa on ongelmia muun muassa puheen oikeassa tunnistuksessa, haamusanojen esiintymisessä sekä erikokoisten mallien kyvyissä ja nopeudessa. Tärkeimpänä päätelmänä todettiin kielimallin tarvitsevan näytönohjainta toimiakseen riittävän tarkasti ja nopeasti puheohjauksen kanssa suomen kielellä. Tästä syystä integraatio toimeksiantajan järjestelmiin rajattiin pois opinnäytetyön toteutuksesta.