En utredning av finlandssvensk talsyntes
Siljander, Susanna (2026)
Siljander, Susanna
2026
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2026053119665
https://urn.fi/URN:NBN:fi:amk-2026053119665
Tiivistelmä
Syftet med arbetet är att kartlägga finlandssvensk talsyntes och svara på frågorna om vad som krävs för en bra TTS-modell, hur utvecklingen kring finlandssvensk talsyntes ser ut, vilka finlandssvenska modeller eller röster det finns samt vilka utmaningarna för finlandssvensk talsyntes är.
Metoden i arbetet är informationssökning och källorna består av vetenskapliga artiklar, utgivna rapporter och annan relevant litteratur. Därtill inkluderas nyhetsartiklar, då tidigare forskningsöversikter i området inte finns, samt information från företags webbplatser för att kunna ge en bild av existerande lösningar.
Frågan om vad som krävs för en bra TTS-modell kan besvaras ur såväl ett tekniskt perspektiv (stort, lämpligt och välannoterat dataset) som ett samhälleligt perspektiv (initiativ, engagemang och ett målmedvetet arbete). Därtill kan frågan diskuteras ur ett tillgänglighetsperspektiv (en gratis, öppen modell kontra proprietär och/eller kommersiell modell) samt hållbarhetsperspektiv (energianvändning).
Utredningen visar att röster på finlandssvenska är få (Samuel, Amanda och AIda), framtagna för specifika ändamål (Svenska Yle) och/eller kommersiella (Acapela Group, Readit). Det finns varken tillgängliga finlandssvenska TTS-dataset eller publika finlandssvenska TTS-modeller. Tidigare forskning har fokuserat på taligenkänning som i högre grad behöver kunna känna igen olika språkliga varieteter.
Utmaningen för finlandssvensk talsyntes som utredningen identifierar är tillgång till data. Därtill förekommer likadana utmaningar som Linda Mannila identifierar i rapporten ”AI och svenskan i Finland”. Dessa är bland annat ekonomiska förutsättningar, hur storföretag prioriterar utvecklingen av olika lösningar, bristen av språklig, kulturell och teknisk kompetens samt en ökande konkurrens från finskan och engelskan. The purpose of this work is to research the field of Finnish-Swedish text to speech (TTS). This work aims to answer which the requirements of a good TTS model are, how Finnish-Swedish speech synthesis has been developed, which Finnish-Swedish models or voices exist, and what the challenges for Finnish-Swedish speech synthesis are.
This study gathers information on the field of Finnish-Swedish speech synthesis. The sources consist of scientific articles, published reports, and other relevant literature. News articles are also included, as previous research overviews don’t exist, as well as information from company websites to provide an overview of existing solutions.
The requirements of a good TTS model can be evaluated from both a technical perspective (a large, suitable, and well annotated dataset) and a societal perspective (initiative, engagement, and purposeful efforts). The question can also be discussed from an accessibility perspective (a free, open model versus a proprietary and/or commercial model) as well as from a sustainability perspective (energy consumption).
This review shows that there are only a few Finnish-Swedish voices (Samuel, Amanda, and AIda). These are developed for specific purposes (Svenska Yle) and/or commercial use (Acapela Group, Readit). There are no accessible Finnish-Swedish TTS datasets or public Finnish-Swedish TTS models. Previous research has mostly focused on automatic speech recognition, which needs to be able to recognize different language varieties to a greater extent than speech synthesis.
The review identifies access to data as a challenge for Finnish-Swedish TTS. The field of Finnish-Swedish speech synthesis also faces the same challenges as identified by Linda Mannila in the report “AI och svenskan i Finland”. These include financial conditions, how large corporations prioritise the development of different solutions, a lack of linguistic, cultural, and technical expertise, and increasing competition from Finnish and English.
Metoden i arbetet är informationssökning och källorna består av vetenskapliga artiklar, utgivna rapporter och annan relevant litteratur. Därtill inkluderas nyhetsartiklar, då tidigare forskningsöversikter i området inte finns, samt information från företags webbplatser för att kunna ge en bild av existerande lösningar.
Frågan om vad som krävs för en bra TTS-modell kan besvaras ur såväl ett tekniskt perspektiv (stort, lämpligt och välannoterat dataset) som ett samhälleligt perspektiv (initiativ, engagemang och ett målmedvetet arbete). Därtill kan frågan diskuteras ur ett tillgänglighetsperspektiv (en gratis, öppen modell kontra proprietär och/eller kommersiell modell) samt hållbarhetsperspektiv (energianvändning).
Utredningen visar att röster på finlandssvenska är få (Samuel, Amanda och AIda), framtagna för specifika ändamål (Svenska Yle) och/eller kommersiella (Acapela Group, Readit). Det finns varken tillgängliga finlandssvenska TTS-dataset eller publika finlandssvenska TTS-modeller. Tidigare forskning har fokuserat på taligenkänning som i högre grad behöver kunna känna igen olika språkliga varieteter.
Utmaningen för finlandssvensk talsyntes som utredningen identifierar är tillgång till data. Därtill förekommer likadana utmaningar som Linda Mannila identifierar i rapporten ”AI och svenskan i Finland”. Dessa är bland annat ekonomiska förutsättningar, hur storföretag prioriterar utvecklingen av olika lösningar, bristen av språklig, kulturell och teknisk kompetens samt en ökande konkurrens från finskan och engelskan.
This study gathers information on the field of Finnish-Swedish speech synthesis. The sources consist of scientific articles, published reports, and other relevant literature. News articles are also included, as previous research overviews don’t exist, as well as information from company websites to provide an overview of existing solutions.
The requirements of a good TTS model can be evaluated from both a technical perspective (a large, suitable, and well annotated dataset) and a societal perspective (initiative, engagement, and purposeful efforts). The question can also be discussed from an accessibility perspective (a free, open model versus a proprietary and/or commercial model) as well as from a sustainability perspective (energy consumption).
This review shows that there are only a few Finnish-Swedish voices (Samuel, Amanda, and AIda). These are developed for specific purposes (Svenska Yle) and/or commercial use (Acapela Group, Readit). There are no accessible Finnish-Swedish TTS datasets or public Finnish-Swedish TTS models. Previous research has mostly focused on automatic speech recognition, which needs to be able to recognize different language varieties to a greater extent than speech synthesis.
The review identifies access to data as a challenge for Finnish-Swedish TTS. The field of Finnish-Swedish speech synthesis also faces the same challenges as identified by Linda Mannila in the report “AI och svenskan i Finland”. These include financial conditions, how large corporations prioritise the development of different solutions, a lack of linguistic, cultural, and technical expertise, and increasing competition from Finnish and English.
