RAG-järjestelmän tiedonhaun parantaminen retriever-komponentin fine-tuningilla

Tolonen, Katri

RAG-järjestelmän tiedonhaun parantaminen retriever-komponentin fine-tuningilla

Tolonen, Katri (2026)

Avaa tiedosto

Tolonen_Katri.pdf (1.363Mt)

Lataukset:

Tolonen, Katri

2026

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202603285176

Tiivistelmä

Opinnäytetyössä tarkasteltiin Retrieval‑Augmented Generation (RAG) ‑arkkitehtuuria keskittyen erityisesti tiedonhaun eli retriever-komponentin kehittämiseen. RAG-järjestelmissä kyky löytää käyttäjän kysymykseen relevantti lähdeteksti on keskeinen tekijä lopullisen vastauksen laadun kannalta. Työn päätavoitteena oli selvittää, voidaanko retriever-komponentin toimialakohtaisella fine‑tuningilla parantaa tiedonhaun osumatarkkuutta. Lisäksi tavoitteena oli havainnollistaa, miten mahdollinen hakutarkkuuden paraneminen heijastuu generointivaiheeseen eli tuotettuun vastaukseen. Työ rajattiin hakukomponentin kehittämiseen eikä koko RAG-putkea optimoitu.

Fine-tuning toteutettiin eläkevakuuttamisen toimialueen aineistolla, joka koostui verkkosivusisällöistä sekä PDF-muotoisista ohjeista. Aineisto esikäsiteltiin, paloiteltiin semanttisesti sopiviksi tekstikappaleiksi ja indeksoitiin FAISS-vektori-indeksiin. Retriever-mallina käytettiin monikielistä intfloat/multilingual-e5-small -embedding-mallia, jota hienosäädettiin valvotusti Sentence Transformers -kirjastolla. Fine-tuningin onnistumista arvioitiin vertaamalla hienosäädetyn ja alkuperäisen mallin hakutuloksia samalla testiaineistolla käyttäen mittareina Recall@K- ja MRR-mittareita.

Tulokset osoittivat, että tiiviillä koulutusaineistolla tiedonhaun tarkkuus parani selvästi: Recall@1 nousi 26 %, Recall@5 22 % ja MRR@5 32 %. Teemakohtaisesti suurimmat parannukset nähtiin työkyvyttömyyseläkemaksun ja työkyvyttömyyseläkkeen kysymyksissä. Laajemmalla, heterogeenisemmalla aineistolla kokonaisparannusta ei saavutettu, mikä viittaa aineiston kohdentamisen ja tasapainon merkitykseen retriever-komponentin hienosäädössä. Generointivaiheen esimerkit osoittivat, että käytetyn monikielisen generointimallin (microsoft/Phi-4-mini-instruct) tuottamien suomenkielisten vastausten laatu ei ole sellaisenaan riittävä asiantuntijatason käyttötarkoituksiin, vaikka joissakin tapauksissa parantunut tiedonhaku heijastuikin myös vastauksen sisältöön.

Työn johtopäätöksenä on, että toimialakohtainen fine‑tuning voi parantaa tiedonhaun tarkkuutta jo kohtuullisen pienellä, mutta huolellisesti laaditulla aineistolla. Vaikutus ei kuitenkaan jakaudu tasaisesti kaikkiin teemoihin. Tulokset korostavat datan laadun ja tasapainoisen teema‑edustuksen merkitystä RAG-pohjaisten tiedonhakumenetelmien fine-tuningissa. Tulokset osoittavat, että retriever-komponentin parantaminen yksinään ei välttämättä riitä asiantuntijatason RAG-järjestelmän toteuttamiseen, vaan jatkokehitys edellyttää koko RAG-putken tarkastelua.

This thesis examined the Retrieval-Augmented Generation (RAG) architecture, with a particular focus on the development of the retrieval component. In RAG systems, the retriever’s ability to find a source passage relevant to the user’s query is a key factor in the quality of the final answer. The main objective of the thesis was to investigate whether domain-specific fine-tuning of the retriever component can improve retrieval accuracy. An additional goal was to illustrate how potential improvements in retrieval accuracy are reflected in the generation phase, that is, in the produced answer. The work was limited to the development of the retrieval component, and the entire RAG pipeline was not optimized.

Fine-tuning was performed using domain data from the field of pension insurance, consisting of website content and PDF-based guidelines. The data was preprocessed, split into semantically appropriate text passages, and indexed into a FAISS vector index. The retriever model used was the multilingual intfloat/multilingual-e5-small embedding model, which was fine-tuned in a supervised manner using the Sentence Transformers library. The success of the fine-tuning was evaluated by comparing the retrieval results of the fine-tuned model with those of the original model using the same test dataset. The evaluation metrics used were Recall@K and MRR.

The results showed that with a more compact training dataset, the retriever’s performance improved clearly: Recall@1 increased by 26%, Recall@5 by 22%, and MRR@5 by 32%. The largest improvements by topic were observed in questions related to disability pension contributions and disability pensions. With a broader, more heterogeneous dataset, no overall improvement was achieved, indicating the importance of data targeting and balance in retriever fine-tuning. Examples from the generation phase showed that the quality of the Finnish-language responses produced by the multilingual generation model (microsoft/Phi-4-mini-instruct) was not sufficient as such for expert-level use cases, although in some cases improved retrieval was also reflected in the content of the answer.

The main conclusion of the thesis is that domain-specific fine-tuning can improve the accuracy of a retriever even with a relatively small but carefully constructed dataset. However, the effect is not evenly distributed across all topics. The results highlight the importance of data quality and balanced topic representation in the fine-tuning of RAG-based retrieval systems. The results also indicate that improving the retriever component alone may not be sufficient for building an expert-level RAG system, and further development requires consideration of the entire RAG pipeline.

Kokoelmat

Opinnäytetyöt (Avoin kokoelma)