Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomi
  • Svenska
  • English
  • Kirjaudu
Hakuohjeet
JavaScript is disabled for your browser. Some features of this site may not work without it.
Näytä viite 
  •   Ammattikorkeakoulut
  • Haaga-Helia ammattikorkeakoulu
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite
  •   Ammattikorkeakoulut
  • Haaga-Helia ammattikorkeakoulu
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite

RAG-based Search Engine with an Autonomous Web Crawler

Hemmi, Pauli (2025)

 
Avaa tiedosto
Hemmi_Pauli.pdf (7.150Mt)
Lataukset: 


Hemmi, Pauli
2025
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025120332304
Tiivistelmä
Innovations require multidisciplinary cooperation and especially for individual innovators who don’t have established partnerships universities of applied can have a critical role in supporting their RDI activities. It can, however, be time-consuming and confusing to browse and find the relevant information if one does not know exactly what the 24 UAS’s in Finland can offer. There is a clear need to address these issues and to develop a faster, more reliable search solution/tool that can understand context, help innovators find information and links that can provide answers to even more vague questions and search queries.

This is, in a nutshell, the main objective for this product-based Thesis commissioned by Keksintösäätiö. The main theoretical concepts include software architecture, traditional and semantic search, web crawling, vector space modelling, large language models (LLM’s ), retrieval augmented generation (RAG) and FAISS.

The empirical part of the thesis outlines the complete cycle of development for a RAG-based search-tool that helps innovators find information and links from Finnish universities of applied sciences (UAS) websites. The tool will be implemented to Keksintösäätiö’s member only platform Ideajalostamo®.
Empirical part includes criteria and description for planning, system architecture, implementation and testing. In the scope of this thesis, UX Design is not the main criteria for evaluation but the focus in is usability and functionality, but the scope includes building the database for the RAG tool.
The final output, the RAG-based tool itself is versatile and flexible thanks to the smart agentic crawler that can initialize databases from any types of websites and create fully working FAISS databases with just a few clicks. Even though developed for the commissioner, the tool has wider usability, and the principles can be applied to any organization that wants to provide its stakeholders with faster and easier access to relevant information via search.
 
Tämän opinnäytetyön tavoitteena oli kehittää itsenäisesti toimiva RAG tekniikkaan perustuva semanttinen hakukone. Työkalu hyödyntää agenttipohjaista tiedonkeräykseen käytettävää hakurobottia. Työ toteutettiin keksintösäätiön toimeksiannosta osaksi Ideajalostamo® innovaatioalustaa. Alustan tavoitteena on tukea varhaisen vaiheen innovaattoreita, keksijöitä ja yrittäjiä tarjoamalla työkaluja ja neuvoja ideaprosessin vauhdittamiseen ja asiantuntijoiden löytämiseen.

Lähtökohtana oli huomio siitä, ettei suomalaisten ammattikorkeakoulujen palveluita ole intuitiivista löytää, vaikka tarjolla on runsas määrä palveluita ja yhteistyömahdollisuuksia. Näiden löytäminen uutena innovaattorina saattaa olla haastavaa, jos korkeakoulujen palvelut eivät ole ennestään tuttuja. Perinteinen avainsanahaku ei aina kykene tulkitsemaan käyttäjän kysymystä, varsinkin jos käytetään erilaista rakennetta tai termejä kuin haettavassa lähteessä. Perinteiset hakutavat eivät aina kykene tulkitsemaan haun tai kysymyksen merkitystä, varsinkin silloin kun käyttäjä ei tiedä täsmälleen mitä pitäisi hakea. Näiden ongelmien ratkaisuun kehitettiin järjestelmä, joka yhdistää semanttisen verkkohaun, kielimallien ymmärryksen ja autonomisen datankeruun. Näiden kokonaisuus tarjoaa työkalun, joka osaa auttaa myös silloin kun hakutermit ovat hukassa.

Teoriaosuus tutkii työkalun keskeisimpiä käsitteitä kuten ”web crawling” hakumenetelmiä, vektoripohjaisia matemaattisia malleja, tekoälymallien ja vektoritietokantoja upotus teknologiaa ja periaatteita, sekä vektoripohjaisia dokumenttimalleja. Lisäksi osiossa käydään läpi tekoälykehityksen perusasiat kuten: LLM, agenttinen AI ja RAG eli Retrieval Augumented Generation. Erityisesti RAG-tekniikan rooli on tärkeänä osana kokonaisuutta, jossa tietolähteet haetaan semanttisen haun avulla ulkoisesta tietokannasta ja annetaan kontekstiksi kielimallille, joka vastaa kysymyksiin annetun kontekstin avulla.

Empiirisessä osuudessa käytiin läpi työkalun erillisten osien suunnittelu, että toteutus. Tärkeimmät alueet olivat agenttisen hakurobotin rakentaminen, kerätyistä tiedoista vektorikannan koostaminen ja RAG hakuagentin toteuttaminen. Kehitetty hakurobotti analysoi käyttäjän antamat sivut ja muodostaa ohjeiden mukaiset kategoriat kerättäville verkkosivujen linkeille, joiden tarkoituksena on keventää ja optimoida tiedonkeräystä, samalla vähentäen työkalun kokonaisenergiankulutusta. Tämän jälkeen tiedot kerätään jokaisen valitun ammattikorkeakoulun sivuilta ja näiden pohjalta muodostetaan kategoriakohtaisia FAISS vektoritietokantoja. Automatisoitu päivittäminen auttaa pitämään sisällön ajantasaisena ilman että ylläpidon pitää manuaalisesti sitä aloittaa.

Työn tuloksena tuotettiin järjestelmä, jonka avulla käyttäjä pystyy hakemaa tietoa vektorihakumenetelmän ja kielimallin avulla, suoraviivaistamalla koko prosessin ja haun agenttisen tekoälyketjun alle. Testauksen tuloksina osoitettiin, että järjestelmä toimii nopeasti ja luotettavasti. Myös käyttäjätestauksien tulokset olivat positiivisia ja yhteinen konsensus oli, että työkalun toimivuus vastaa alkuperäisiä tavoitteita ja pystyy haastamaan perinteiset menetelmät monissa osa-alueissa.
 
Kokoelmat
  • Opinnäytetyöt (Avoin kokoelma)
Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatKoulutusalatAsiasanatUusimmatKokoelmat

Henkilökunnalle

Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste