Possibilities for speaker diarization in an embedded context : a feasibility study
Korsu, Karri (2025)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025052817615
https://urn.fi/URN:NBN:fi:amk-2025052817615
Tiivistelmä
Speaker diarization is a problem of speech processing which aims to answer the question of ”who spoke when”. This thesis approaches diarization from the angle of annotating multi speaker meetings of variable length, or meeting diarization.
This thesis investigates the feasibility of running a speaker diarization and automatic speech recognition system on an embedded device in near real time. The purpose was to evaluate whether such a pipeline could operate locally, supporting the development of a self-contained, lightweight, meeting transcription system.
A review of existing diarization techniques was conducted to define selection criteria for implementation. Based on these criteria, a single-threaded processing pipeline was developed and tested using a publicly available meeting corpus.
Results demonstrate that the pipeline performs sufficiently well in terms of accuracy, confirming the overall feasibility of the concept. However, the system's runtime exceeds acceptable thresholds for deployment. Further improvements, like parallelization of pre- and post-processing steps, are required to meet performance expectations in practical use. Diarisaatio on puheenkäsittelyn sovellusala, jolla pyritään erittelemään ja järjestämään eri puhujat keskustelussa. Kokousdiarisaatio viittaa diarisaatioon real world -olosuhteissa, joita määrittää vaihteleva määrä puhujia sekä kokousten vaihteleva kesto.
Opinnäytetyön aiheena oli esiselvityshanke kokousdiarisaation sekä automaattisen puheentunnistuksen mahdollisuuksista sulautetussa järjestelmässä lähes reaaliajassa. Tarkoitus oli tarkastella, voisiko kyseinen järjestelmä toimia täysin paikallisesti rajoitettujen resurssien alustalla.
Jo olemassa oleviin diarisaatiotekniikoihin järjestettiin arviointivaihe, jotta saataisiin valintakriteerejä toteutettavalle järjestelmälle. Näiden kriteerien perusteella valittiin ja toteutettiin multimodaalinen diarisaatiojärjestelmä, jota arvioitiin julkisesti saatavilla olevalla aineistokokoelmalla.
Tulokset osoittivat, että järjestelmän on mahdollista toimia tarpeeksi tarkasti ja vahvisti osaltaan toteutettavuutta. Järjestelmän aikavaatimukset eivät kuitenkaan täyttyneet minkä vuoksi esi- ja jälkikäsittelyvaiheiden rinnakkaisprosessointi tullaan toteuttamaan projektin tulevaisuudessa.
This thesis investigates the feasibility of running a speaker diarization and automatic speech recognition system on an embedded device in near real time. The purpose was to evaluate whether such a pipeline could operate locally, supporting the development of a self-contained, lightweight, meeting transcription system.
A review of existing diarization techniques was conducted to define selection criteria for implementation. Based on these criteria, a single-threaded processing pipeline was developed and tested using a publicly available meeting corpus.
Results demonstrate that the pipeline performs sufficiently well in terms of accuracy, confirming the overall feasibility of the concept. However, the system's runtime exceeds acceptable thresholds for deployment. Further improvements, like parallelization of pre- and post-processing steps, are required to meet performance expectations in practical use.
Opinnäytetyön aiheena oli esiselvityshanke kokousdiarisaation sekä automaattisen puheentunnistuksen mahdollisuuksista sulautetussa järjestelmässä lähes reaaliajassa. Tarkoitus oli tarkastella, voisiko kyseinen järjestelmä toimia täysin paikallisesti rajoitettujen resurssien alustalla.
Jo olemassa oleviin diarisaatiotekniikoihin järjestettiin arviointivaihe, jotta saataisiin valintakriteerejä toteutettavalle järjestelmälle. Näiden kriteerien perusteella valittiin ja toteutettiin multimodaalinen diarisaatiojärjestelmä, jota arvioitiin julkisesti saatavilla olevalla aineistokokoelmalla.
Tulokset osoittivat, että järjestelmän on mahdollista toimia tarpeeksi tarkasti ja vahvisti osaltaan toteutettavuutta. Järjestelmän aikavaatimukset eivät kuitenkaan täyttyneet minkä vuoksi esi- ja jälkikäsittelyvaiheiden rinnakkaisprosessointi tullaan toteuttamaan projektin tulevaisuudessa.