Kirjanurkka : kuvallisten kirjojen AI-äänillä ääninäytellyn ominaisuuden tuottaminen ja toteutus verkkosivustoon
Karjalainen, Juuso (2025)
Karjalainen, Juuso
2025
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025053118788
https://urn.fi/URN:NBN:fi:amk-2025053118788
Tiivistelmä
Tässä opinnäytetyössä kehitettiin verkkopohjainen sovellus, joka tuo tekoälypohjaisen ääninäyttelyn osaksi kuvallisten kirjojen lukukokemusta. Tavoitteena oli selvittää, kuinka uskottavasti ja inhimillisesti tekoäly voi tuottaa hahmokohtaisia puheääniä reaaliaikaisesti, ja miten nämä ratkaisut voidaan integroida saavutettavasti verkkoympäristöön.
Työssä toteutettiin Full Stack -verkkosovellus React- ja Node.js-teknologioilla. Äänien tuottamiseen hyödynnettiin viittä eri AI-ääniteknologiaa, joita vertailtiin käyttäjätestauksessa (N=23) laadullisin ja määrällisin menetelmin. Testiasetelma perustui ITU-T P.808-standardiin ja arviointikriteerit mittasivat muun muassa inhimillisyyttä, tunnetta ja hahmosopivuutta.
Tulosten perusteella RVC-Project erottui tämän verkkosovelluksen käyttötarkoitukseen laadukkaimpana ja skaalautuvimpana teknologiana, joka mahdollisti realistiset ja yksilölliset hahmoäänet kustannustehokkaasti. Tämä ratkaisu integroitiin sovellukseen, jossa käyttäjä voi klikkaamalla puhekuplia kuunnella tekoälyn tuottamia vuorosanoja tai valita erilaisia AI-kertojamalleja, kuten Elina ja Joonas.
Työ osoittaa, että tekoälypohjainen äänenmuunnos tarjoaa uskottavan vaihtoehdon perinteiselle ääninäyttelylle. RVC-Projectin kaltaiset teknologiat mahdollistavat uudenlaisen, immersiivisen tavan kokea tarinoita verkkoympäristössä. This thesis presents the development of a web-based application that integrates AI-powered voice acting into the reading experience of illustrated books. The objective was to examine how convincingly, and naturally artificial intelligence can generate character-specific speech in real time, and how such solutions can be implemented in an accessible way within a web environment.
The project implemented a Full Stack web application using React and Node.js technologies. Five different AI-based speech synthesis solutions were used to generate the voices and were compared through user testing (N=23) using both qualitative and quantitative methods. The evaluation was based on the ITU-T P.808 standard, with criteria focusing on human-likeness, emotional expression, and character fit.
According to the results, RVC-Project stood out as the most suitable and scalable solution for the application’s goals, providing realistic and individualized character voices in a cost-effective manner. This technology was integrated into the application so that users could click on speech bubbles to hear AI-generated dialogue or choose between different AI narrator models.
The study demonstrates that AI-based voice conversion provides a credible alternative to traditional voice acting. Technologies such as RVC-Project enable a new kind of immersive storytelling experience in digital environments.
Työssä toteutettiin Full Stack -verkkosovellus React- ja Node.js-teknologioilla. Äänien tuottamiseen hyödynnettiin viittä eri AI-ääniteknologiaa, joita vertailtiin käyttäjätestauksessa (N=23) laadullisin ja määrällisin menetelmin. Testiasetelma perustui ITU-T P.808-standardiin ja arviointikriteerit mittasivat muun muassa inhimillisyyttä, tunnetta ja hahmosopivuutta.
Tulosten perusteella RVC-Project erottui tämän verkkosovelluksen käyttötarkoitukseen laadukkaimpana ja skaalautuvimpana teknologiana, joka mahdollisti realistiset ja yksilölliset hahmoäänet kustannustehokkaasti. Tämä ratkaisu integroitiin sovellukseen, jossa käyttäjä voi klikkaamalla puhekuplia kuunnella tekoälyn tuottamia vuorosanoja tai valita erilaisia AI-kertojamalleja, kuten Elina ja Joonas.
Työ osoittaa, että tekoälypohjainen äänenmuunnos tarjoaa uskottavan vaihtoehdon perinteiselle ääninäyttelylle. RVC-Projectin kaltaiset teknologiat mahdollistavat uudenlaisen, immersiivisen tavan kokea tarinoita verkkoympäristössä.
The project implemented a Full Stack web application using React and Node.js technologies. Five different AI-based speech synthesis solutions were used to generate the voices and were compared through user testing (N=23) using both qualitative and quantitative methods. The evaluation was based on the ITU-T P.808 standard, with criteria focusing on human-likeness, emotional expression, and character fit.
According to the results, RVC-Project stood out as the most suitable and scalable solution for the application’s goals, providing realistic and individualized character voices in a cost-effective manner. This technology was integrated into the application so that users could click on speech bubbles to hear AI-generated dialogue or choose between different AI narrator models.
The study demonstrates that AI-based voice conversion provides a credible alternative to traditional voice acting. Technologies such as RVC-Project enable a new kind of immersive storytelling experience in digital environments.