Hakustrategioiden vaikutus suomenkielisen RAG-järjestelmän tiedonhaun laatuun ja suorituskykyyn
Heinonen, Karine (2026)
Heinonen, Karine
2026
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202604156494
https://urn.fi/URN:NBN:fi:amk-202604156494
Tiivistelmä
Opinnäytetyössä tutkittiin, miten RAG-putken tiedonhakuvaiheen hakustrategiat vaikuttavat suomenkielisen aineiston hakutulosten laatuun ja suorituskykyyn Qdrant-vektoritietokantaa hyödyntävässä toteutuksessa. Aineistona käytettiin suomenkielisistä Theseus-opinnäytteistä muodostettua korpusta, ja arviointi toteutettiin 30 suomenkielisellä kyselyllä manuaalisen gold-annotoinnin avulla dokumenttitasolla. Kokeellinen vertailu toteutettiin ablaatioasetelmana, jossa perusvektorihakuun (C0) lisättiin vaiheittain monipuolistus Ma-ximal Marginal Relevance -menetelmällä (C1), cross-encoder-pohjainen uudelleenjärjes-täminen (C2) sekä tulosten kaksoiskappaleiden poisto (C3). Laatua mitattiin recall@5- ja nDCG@5-mittareilla, ja suorituskykyä arvioitiin p50-, p95- ja p99-latensseilla.
Tulokset osoittivat, että MMR parantaa hakutulosten laatua ilman käytännössä merkittävää mediaanilatenssin kasvua. Uudelleenjärjestämisen lisääminen paransi laatua edelleen, mutta kasvatti samalla latenssia selvästi ja korosti hitaiden tapausten jakauman häntää. Kaksoiskappaleiden poisto ei muuttanut dokumenttitason keskimääräisiä mittareita tässä aineistossa, mutta sitä pidettiin hyödyllisenä erityisesti redundanssin vähentämisessä tilan-teissa, joissa ehdokasjoukko on suuri. Uudelleenjärjestämismallien vertailussa monikieli-nen BAAI/bge-reranker-v2-m3 tuotti paremman laadun kuin ms-marco, mutta ms-marco oli selvästi nopeampi, mikä korostaa käytännön laatu–latenssikompromissia. Työn johtopää-töksenä esitetään suosituksia konfiguraatiovalintoihin: laatupainotteiseen käyttöön soveltu-vat MMR ja uudelleenjärjestäminen (bge-m3), kun taas tiukkoihin vasteaikavaatimuksiin soveltuvat perusvektorihaku, MMR tai ms-marcoon perustuva kompromissiratkaisu. This thesis investigated how retrieval-stage search strategies in a RAG pipeline affect both retrieval quality and system performance in an implementation based on the Qdrant vector database and Finnish-language data. The corpus was compiled from Finnish Theseus theses, and the evaluation was conducted using 30 Finnish queries with man-ual gold annotations at the document level. The experimental comparison followed an ablation setup in which baseline vector search (C0) was incrementally extended with diversification through Maximal Marginal Relevance (C1), cross-encoder-based rerank-ing (C2), and result deduplication (C3). Quality was measured using recall@5 and nDCG@5, while performance was assessed using p50, p95, and p99 latency metrics.
The results show that MMR improves retrieval quality without a practically significant increase in median latency. Adding reranking further improved quality, but also in-creased latency substantially and amplified the tail of slow cases. Deduplication did not change the document-level average metrics in this dataset, but it may still be useful in practice for reducing redundancy when the candidate pool is large. In the reranker com-parison, the multilingual BAAI/bge-reranker-v2-m3 achieved higher quality than ms-marco, whereas ms-marco was clearly faster, highlighting the practical quality–latency trade-off. Based on these findings, the thesis provides configuration recommendations: for quality-oriented use, MMR combined with reranking (bge-m3) is recommended, whereas for strict response-time requirements, baseline vector search, MMR, or an ms-marco-based compromise may be more appropriate.
Tulokset osoittivat, että MMR parantaa hakutulosten laatua ilman käytännössä merkittävää mediaanilatenssin kasvua. Uudelleenjärjestämisen lisääminen paransi laatua edelleen, mutta kasvatti samalla latenssia selvästi ja korosti hitaiden tapausten jakauman häntää. Kaksoiskappaleiden poisto ei muuttanut dokumenttitason keskimääräisiä mittareita tässä aineistossa, mutta sitä pidettiin hyödyllisenä erityisesti redundanssin vähentämisessä tilan-teissa, joissa ehdokasjoukko on suuri. Uudelleenjärjestämismallien vertailussa monikieli-nen BAAI/bge-reranker-v2-m3 tuotti paremman laadun kuin ms-marco, mutta ms-marco oli selvästi nopeampi, mikä korostaa käytännön laatu–latenssikompromissia. Työn johtopää-töksenä esitetään suosituksia konfiguraatiovalintoihin: laatupainotteiseen käyttöön soveltu-vat MMR ja uudelleenjärjestäminen (bge-m3), kun taas tiukkoihin vasteaikavaatimuksiin soveltuvat perusvektorihaku, MMR tai ms-marcoon perustuva kompromissiratkaisu.
The results show that MMR improves retrieval quality without a practically significant increase in median latency. Adding reranking further improved quality, but also in-creased latency substantially and amplified the tail of slow cases. Deduplication did not change the document-level average metrics in this dataset, but it may still be useful in practice for reducing redundancy when the candidate pool is large. In the reranker com-parison, the multilingual BAAI/bge-reranker-v2-m3 achieved higher quality than ms-marco, whereas ms-marco was clearly faster, highlighting the practical quality–latency trade-off. Based on these findings, the thesis provides configuration recommendations: for quality-oriented use, MMR combined with reranking (bge-m3) is recommended, whereas for strict response-time requirements, baseline vector search, MMR, or an ms-marco-based compromise may be more appropriate.
