Luonnollisen kielen käsittely Unitree G1 EDU -humanoidirobottialustalla
Kamysheva, Natalia (2026)
Kamysheva, Natalia
2026
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202604156545
https://urn.fi/URN:NBN:fi:amk-202604156545
Tiivistelmä
Insinöörityössä suunniteltiin ja toteutettiin puhevuorovaikutusjärjestelmä humanoidirobotille, joka voi toimi Helsinki XR Centerin vierasoppaana. Järjestelmä rakennettiin puheesta puheeseen -putkena robotin reunalaskentayksikölle. Arkkitehtuuri oli hybridi: puheentunnistus ja puhesynteesi ajettiin paikallisesti robotilla, mutta kielimalli toimi pilvipalveluna. Paikallinen kielimallipalvelu oli saatavilla offline-varavaihtoehtona.
Toteutuksessa käytettiin avoimen lähdekoodin komponentteja: monikielistä puheentunnistusmallia ja neuroverkkosyntetisaattoria suomen ja englannin äänimalleilla. Äänitallennukseen käytettiin Linux-äänijärjestelmää energiaperusteisella puheaktiivisuuden tunnistuksella. Pilvipalvelukielimalli integroitiin työkalukäytöllä ja lause kerrallaan suoratoistolla. Kielimalli ohjasi robotin fyysistä käyttäytymistä kuuden työkalun kautta: eleet, LED-valot, äänenvoimakkuus, kamera kuva-analyysillä, tietokantahaku ja verkkohaku.
Työn edetessä kävi ilmi, että robotin sisäänrakennettu neljän mikrofonin ryhmä ei tuottanut riittävän laadukasta ääntä puheentunnistukselle. Ongelma ratkaistiin vaihtamalla ulkoiseen USB-mikrofoniin. Lopputuloksena syntyi reaaliaikainen keskustelujärjestelmä, joka tunnisti suomea ja englantia, vastasi puheella noin kahden sekunnin viiveellä, ohjasi robotin eleitä ja sensoreita puhekomennoin ja opasti vierailijoita semanttisen tietokannan avulla.
Toteutuksessa käytettiin avoimen lähdekoodin komponentteja: monikielistä puheentunnistusmallia ja neuroverkkosyntetisaattoria suomen ja englannin äänimalleilla. Äänitallennukseen käytettiin Linux-äänijärjestelmää energiaperusteisella puheaktiivisuuden tunnistuksella. Pilvipalvelukielimalli integroitiin työkalukäytöllä ja lause kerrallaan suoratoistolla. Kielimalli ohjasi robotin fyysistä käyttäytymistä kuuden työkalun kautta: eleet, LED-valot, äänenvoimakkuus, kamera kuva-analyysillä, tietokantahaku ja verkkohaku.
Työn edetessä kävi ilmi, että robotin sisäänrakennettu neljän mikrofonin ryhmä ei tuottanut riittävän laadukasta ääntä puheentunnistukselle. Ongelma ratkaistiin vaihtamalla ulkoiseen USB-mikrofoniin. Lopputuloksena syntyi reaaliaikainen keskustelujärjestelmä, joka tunnisti suomea ja englantia, vastasi puheella noin kahden sekunnin viiveellä, ohjasi robotin eleitä ja sensoreita puhekomennoin ja opasti vierailijoita semanttisen tietokannan avulla.
