Reaaliaikaisen verkkoliikenteen poikkeamien tunnistus ja sen soveltuvuus torjuntaan tekoälyn avulla
Soloviev, Andrei (2025)
Soloviev, Andrei
2025
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025121938524
https://urn.fi/URN:NBN:fi:amk-2025121938524
Tiivistelmä
Digitalisaation kiihtyessä ja tietojärjestelmien merkityksen kasvaessa myös verkkoliikenteeseen kohdistuvat kyberuhat ovat lisääntyneet ja monimutkaistuneet. Reaaliaikainen poikkeamien havaitseminen on noussut keskeiseksi haasteeksi, sillä perinteiset sääntö- ja allekirjoituspohjaiset suojausmenetelmät eivät aina kykene tunnistamaan uusia tai aiemmin tuntemattomia hyökkäyksiä. Tässä yhteydessä tarkasteltiin tekoälypohjaisen poikkeamien tunnistuksen soveltuvuutta reaaliaikaiseen verkkoliikenteen analysointiin, erityisesti tilanteissa, joissa havaintojen nopeus ja joustavuus ovat keskeisiä vaatimuksia.
Tutkimus toteutettiin hyödyntämällä ohjaamatonta koneoppimista ja Isolation Forest -algoritmia. Aineistona käytettiin CICIDS2017-datasettiä, joka sisältää sekä normaalia verkkoliikennettä että erilaisia hyökkäysmuotoja. Ennen mallin opettamista aineistolle suoritettiin esikäsittely, datan normalisointi ja skaalaus sekä aineiston jakaminen koulutus-, validointi- ja testiosiin. Mallin suorituskykyä arvioitiin useilla mittareilla ja sekaannusmatriisin avulla.
Tulosten perusteella havaittiin, että piirrevalinnalla on merkittävä vaikutus mallin suorituskykyyn ja laskennalliseen kuormitukseen. Erityisesti pienempi ja huolellisesti valittu piirrejoukko mahdollisti kilpailukykyisen tunnistustarkkuuden samalla, kun ennustusaika pysyi alhaisena. Tämä osoitti, että menetelmä soveltuu hyvin reaaliaikaiseen käyttöön ympäristöissä, joissa käytettävissä ei ole kattavasti merkittyä koulutusdataa.
Johtopäätöksenä todettiin, että ohjaamaton koneoppiminen tarjoaa käyttökelpoisen lähestymistavan reaaliaikaiseen verkkoliikenteen poikkeamien havaitsemiseen. Samalla kävi ilmi, että mallin soveltaminen tuotantotason ympäristöihin edellyttää huolellista piirrevalintaa sekä lisätestausta aidossa verkkoympäristössä, jotta menetelmän luotettavuus ja käytännön hyödyt voidaan varmistaa. As digitalization accelerates and the importance of information systems continues to grow, cyber threats targeting network traffic have increased in both volume and complexity. Real-time anomaly detection has emerged as a critical challenge, as traditional rule-based and signature-based security mechanisms are not always capable of identifying new or previously unknown attacks. In this context, the applicability of artificial intelligence–based anomaly detection to real-time network traffic analysis was examined, particularly in situations where rapid detection and flexibility are essential requirements. The study was conducted using unsupervised machine learning, with a specific focus on the Isolation Forest algorithm. The CICIDS2017 dataset was used as the data source, containing both normal network traffic and different types of attack traffic. Prior to model training, the dataset underwent preprocessing, including data normalization and scaling, as well as division into training, validation, and test subsets. Model performance was evaluated using multiple metrics and a confusion matrix. The results indicated that feature selection has a significant impact on both model performance and computational load. Smaller and carefully selected features enabled competitive detection accuracy while maintaining low prediction latency. This demonstrated that the approach is well suited for real-time environments where fully labelled training data is not available. In conclusion, unsupervised machine learning provided a viable approach for real-time network traffic anomaly detection. At the same time, the findings highlighted that deployment in production-level environments requires careful feature selection and additional testing in real network conditions to ensure reliability and practical effectiveness.
Tutkimus toteutettiin hyödyntämällä ohjaamatonta koneoppimista ja Isolation Forest -algoritmia. Aineistona käytettiin CICIDS2017-datasettiä, joka sisältää sekä normaalia verkkoliikennettä että erilaisia hyökkäysmuotoja. Ennen mallin opettamista aineistolle suoritettiin esikäsittely, datan normalisointi ja skaalaus sekä aineiston jakaminen koulutus-, validointi- ja testiosiin. Mallin suorituskykyä arvioitiin useilla mittareilla ja sekaannusmatriisin avulla.
Tulosten perusteella havaittiin, että piirrevalinnalla on merkittävä vaikutus mallin suorituskykyyn ja laskennalliseen kuormitukseen. Erityisesti pienempi ja huolellisesti valittu piirrejoukko mahdollisti kilpailukykyisen tunnistustarkkuuden samalla, kun ennustusaika pysyi alhaisena. Tämä osoitti, että menetelmä soveltuu hyvin reaaliaikaiseen käyttöön ympäristöissä, joissa käytettävissä ei ole kattavasti merkittyä koulutusdataa.
Johtopäätöksenä todettiin, että ohjaamaton koneoppiminen tarjoaa käyttökelpoisen lähestymistavan reaaliaikaiseen verkkoliikenteen poikkeamien havaitsemiseen. Samalla kävi ilmi, että mallin soveltaminen tuotantotason ympäristöihin edellyttää huolellista piirrevalintaa sekä lisätestausta aidossa verkkoympäristössä, jotta menetelmän luotettavuus ja käytännön hyödyt voidaan varmistaa.
