RAG -pohjainen kyberuhkatiedon hakujärjestelmä
Rautén, Sami (2025)
Rautén, Sami
2025
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202504237407
https://urn.fi/URN:NBN:fi:amk-202504237407
Tiivistelmä
Tässä insinöörityössä kehitettiin ja arvioitiin järjestelmä, joka hyödyntää Retrieval-Augmented Generation (RAG) -arkkitehtuuria kyberuhkatiedon käsittelyssä. Tavoitteena oli rakentaa kokonaisuus, joka kykenee keräämään uhkatietoa avoimista lähteistä, muuntamaan sen vektoripohjaiseen muotoon ja tuottamaan lähteistettyjä vastauksia suurten kielimallien avulla. Toteutuksessa yhdistettiin OpenCTI-alustan tarjoama tiedonkeruu, Elasticsearchin vektorihaku, semanttinen fallback-mekanismi sekä kielimallien (LLM) ohjattu generointi.
Järjestelmä suunniteltiin modulaariseksi ja kontitettiin Docker-ympäristöön. Käytännön implementaatiossa käytettiin yli 600 000 uhkatiedon dokumenttia, joista generoitiin embeddingit BAAI:n bge-large-en-v1.5 -mallilla. Hakuprosessi toteutettiin hybridimallilla, joka yhdistää vektoripohjaisen semanttisen haun ja perinteisen avainsanahaun. Generointivaiheessa käytettiin dynaamisia kehotteita, joilla ohjattiin kielimallia muodostamaan lähteisiin perustuvia vastauksia. Käyttöliittymä toteutettiin Streamlitillä.
Työssä havaittiin, että RAG-pohjainen järjestelmä soveltuu erityisesti strategisen ja operatiivisen kyberuhkatiedustelun tueksi, jossa dokumentaatio on jo jäsennelty ja kysymykset liittyvät laajempiin kokonaisuuksiin. Haasteita ilmeni yksittäisten IoC-tietojen käsittelyssä, datan epäyhtenäisyydessä sekä kielimallien kontekstirajoitteissa. Näihin kehitettiin ratkaisumalleja muun muassa chunkingilla, fallback-haulla ja käyttöliittymän säätöparametreilla.
Järjestelmä osoitti, että RAG-menetelmää voidaan hyödyntää tehokkaasti kyberuhkatiedon rikastamisessa ja jäsentämisessä, kunhan sen käyttö rajoitetaan oikeisiin tilanteisiin ja se liitetään osaksi laajempaa analyysiprosessia. Työ tarjoaa pohjan jatkokehitykselle esimerkiksi agenttisten arkkitehtuurien, laajennettujen konteksti-ikkunoiden ja automatisoidun tiedonhankinnan elinkaarimallin kehitykseen.
Järjestelmä suunniteltiin modulaariseksi ja kontitettiin Docker-ympäristöön. Käytännön implementaatiossa käytettiin yli 600 000 uhkatiedon dokumenttia, joista generoitiin embeddingit BAAI:n bge-large-en-v1.5 -mallilla. Hakuprosessi toteutettiin hybridimallilla, joka yhdistää vektoripohjaisen semanttisen haun ja perinteisen avainsanahaun. Generointivaiheessa käytettiin dynaamisia kehotteita, joilla ohjattiin kielimallia muodostamaan lähteisiin perustuvia vastauksia. Käyttöliittymä toteutettiin Streamlitillä.
Työssä havaittiin, että RAG-pohjainen järjestelmä soveltuu erityisesti strategisen ja operatiivisen kyberuhkatiedustelun tueksi, jossa dokumentaatio on jo jäsennelty ja kysymykset liittyvät laajempiin kokonaisuuksiin. Haasteita ilmeni yksittäisten IoC-tietojen käsittelyssä, datan epäyhtenäisyydessä sekä kielimallien kontekstirajoitteissa. Näihin kehitettiin ratkaisumalleja muun muassa chunkingilla, fallback-haulla ja käyttöliittymän säätöparametreilla.
Järjestelmä osoitti, että RAG-menetelmää voidaan hyödyntää tehokkaasti kyberuhkatiedon rikastamisessa ja jäsentämisessä, kunhan sen käyttö rajoitetaan oikeisiin tilanteisiin ja se liitetään osaksi laajempaa analyysiprosessia. Työ tarjoaa pohjan jatkokehitykselle esimerkiksi agenttisten arkkitehtuurien, laajennettujen konteksti-ikkunoiden ja automatisoidun tiedonhankinnan elinkaarimallin kehitykseen.