Avoimen lähdekoodin äänenkloonauksen toteutus ja arviointi suomen kielellä
Koivula, Miko (2025)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025111728199
https://urn.fi/URN:NBN:fi:amk-2025111728199
Tiivistelmä
Tämä opinnäytetyö vertailee käytännössä eri äänikloonausmenetelmiä suomen kielisessä Text-To-Speech-sovelluksessa (TTS). Työssä testattiin kolmea avoimen lähdekoodin ratkaisua: CSS10-VITS-mallia, XTTS-v2-järjestelmää ja Chatterbox TTS -alustaa. Tavoitteena oli selvittää, mikä teknologia toimii parhaiten suomen kielen kanssa ja miten se käytännössä toteutetaan.
Testien tulokset osoittavat, että XTTS-v2 toimii teknisesti, mutta ei tue suomen kieltä natiivisti. CSS10-malli toimii suomen kielellä, mutta sen äänenlaatu on heikko. Chatterbox TTS osoittautui parhaaksi vaihtoehdoksi: se tukee suomen kieltä natiivisti, kloonaa äänen lyhyestä 5–30 sekunnin näytteestä ja tuottaa korkealaatuista puhetta.
Työ tarjoaa konkreettisia asennusohjeita, teknologiavalintasuosituksia ja käytännön vinkkejä suomenkielisen TTS-järjestelmän kehittämiseen. Lisäksi käsitellään äänikloonauksen eettisiä kysymyksiä ja vesileimausteknologian merkitystä väärinkäytön estämisessä.
Testien tulokset osoittavat, että XTTS-v2 toimii teknisesti, mutta ei tue suomen kieltä natiivisti. CSS10-malli toimii suomen kielellä, mutta sen äänenlaatu on heikko. Chatterbox TTS osoittautui parhaaksi vaihtoehdoksi: se tukee suomen kieltä natiivisti, kloonaa äänen lyhyestä 5–30 sekunnin näytteestä ja tuottaa korkealaatuista puhetta.
Työ tarjoaa konkreettisia asennusohjeita, teknologiavalintasuosituksia ja käytännön vinkkejä suomenkielisen TTS-järjestelmän kehittämiseen. Lisäksi käsitellään äänikloonauksen eettisiä kysymyksiä ja vesileimausteknologian merkitystä väärinkäytön estämisessä.
