Implementing a local LLM with retrieval-augmented generation on a CI/CD-pipeline

Ahsan, Navid

Implementing a local LLM with retrieval-augmented generation on a CI/CD-pipeline

Ahsan, Navid (2025)

Avaa tiedosto

Ahsan_Navid.pdf (864.1Kt)

Lataukset:

Ahsan, Navid

2025

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025120131114

Tiivistelmä

This thesis explores a Retrieval-Augmented Generation (RAG) system in a Continuous Integration/Continuous Delivery or Continuous Deployment (CI/CD) pipeline. The objective of the thesis was to design A RAG system to improve the performance of a Large Language Model (LLM) by retrieving relevant data from a knowledge base stored in vector databases and combining it with the user’s query.
The system was designed to make the process of architecting a local LLM for a CI/CD pipeline faster and more secure when it is not passed through a repository. The technologies used were Python, LangChain, Docker, Ollama, Ansible, and Ragas.
The result of this thesis was an evaluation of the accuracy of an LLM when used with and without RAG. The results showed that the RAG method enhanced the model’s accuracy and reduced hallucinations. The testing process involved different tokenization sizes, embedding models, LLM models, creating effective prompts, parsing data from multiple sources, and measuring how the system avoids hallucinations.
These experiment results show that using RAG-based architecture makes more reliable, accurate, and scalable approach for integrating LLMs into CI/CD pipelines, helping to improve automation and future software development workflows.

Tämä opinnäytetyö keskittyy paikallisen hakulaajennettu generointijärjestelmän toteuttamiseen jatkuvan integroinnin/jatkuvan toimituksen tai jatkuvan käyttöönoton putkistossa. Opinnäytetyön tavoitteena oli suunnitella RAG-järjestelmä, jonka tarkoituksena oli parantaa suurten kielimallien suorituskykyä hakemalla relevanttia dataa vektoritietokantoihin ja yhdistämällä se käyttäjän kyselyyn.
Järjestelmä oli suunniteltu nopeuttamaan ja turvaamaan paikallisen kielimallin arkkitehtuuria CI/CD-putkistossa, kun se ei mene läpi arkistoon. Käytetyt teknologiat olivat Python, LangChain, Docker, Ollama, Ansible and Ragas.
Opinnäytetyön tuloksena arvioitiin suuren kielimallin tarkkuutta RAG- menetelmän kanssa ja ilman sitä. Tulokset osoittivat, että RAG-menetelmä paransi mallin tarkkuutta ja vähensi hallusinaatioita. Testausprosessiin sisältyy erikokoisten tokenointien käyttö, upotusmallien käyttö, eri kielimallien testaaminen, tehokkaiden kehotteiden luominen, datan jäsentäminen useista eri lähteistä sekä sen mittaaminen, miten järjestelmä välttää hallusinaatioita.
Nämä tulokset osoittavat, että RAG-pohjaisen arkkitehtuurin käyttö tarjoaa luotettavamman, tarkemman ja skaalautuvamman lähestymistavan LLM-mallien integroimiseen CI/CD-putkistoihin, hyödyttäen automaatiota ja tulevaisuuden ohjelmistokehityksen prosesseja.

Kokoelmat

Opinnäytetyöt (Avoin kokoelma)