Applying machine learning to process mining data
Rannanniemi, Oskari (2026)
Rannanniemi, Oskari
2026
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202601221626
https://urn.fi/URN:NBN:fi:amk-202601221626
Tiivistelmä
Tutkimus toteutettiin globaalille elektroniikkateollisuuden yritykselle, jonka tavoitteena oli hyödyntää prosessilouhintaa ennakoivassa analytiikassa. Käyttötapaukseksi valittiin prosessilouhinta-alustan myyntiprosessidataa. Tutkimuksen tavoitteena oli arvioida koneoppimismallien tarkkuutta myyntimahdollisuuksien voittamisen tai häviämisen ennustamisessa. Tutkimuksessa hyödynnettiin Design Science Research -lähestymistapaa, joka eteni alku-, väli- ja loppuvaiheen artefaktien kehityksen kautta. Alkuvaiheessa rajattiin ongelma, laadittiin narratiivinen kirjallisuuskatsaus optimaalisten mallien löytämiseksi ja tehtiin eksploratiivinen data-analyysi ensimmäiselle aineistolle. Välivaiheessa suoritettiin neljä iteratiivista kehityskierrosta, jossa yhdessä painotettiin mallivalintaa, minkä myötä XGBoost valittiin lopulliseksi malliksi. Seuraavissa iteraatioissa aineisto muokattiin ajalliseksi tilannekuvaksi myyntimahdollisuuksien historiallisissa vaiheissa. Tämä tehtiin ennustetiedon vuotamisen estämiseksi. Tämän jälkeen kehitettiin kaksi erillistä mallia. Lopuksi viimeisteltiin mallin koodirepositorio, suunniteltiin loppukäyttäjän käyttöliittymäkonsepti ja hahmoteltiin tarvittavat dataputket. Molemmat lopulliset mallit saavuttivat saman ROC-AUC-arvon 77,53 %. Tulosten perusteella mallit soveltuvat voittomahdollisuuksien ennustamiseen, mutta häviötapausten ennustettavuus ei ole yhtä luotettavaa. Mallin 1 päätöskynnykseksi asetettiin 0,2, ja tällä saatiin korkea tarkkuus (accuracy 91,11 %), mutta malli päihitti vain niukasti vertailumallin, jossa arvataan kaikkien mahdollisuuksien olevan voitettavia. Mallin 2 päätöskynnys oli tiukempi, 0,9, ja se ennusti voittotapaukset hyvin (precision 97,93 %). Tämä tarkoittaa, että jos malli ennustaa voittomahdollisuuden, se yleensä on oikeassa. Toisaalta mallin tarkkuus (accuracy) tippui 52,53 prosenttiin, mikä tarkoittaa, että moni myyntimahdollisuus ennustettiin virheellisesti hävityksi. Keskeisiksi haasteiksi nousivat luokkien epätasapaino ja rajallinen määrä piirteitä, mikä viittaa siihen, että erottuvampien piirteiden lisääminen parantaisi ennustetarkkuutta. Tutkimus näytti toteen ajallisten piirteiden tehokkaan hyödyntämisen prosessilouhinnassa ja toi esiin aiemmissa tutkimuksissa yleiset piilossa olevat ennustetiedon vuotamisongelmat. Suosituksena oli kehittää prosessilouhintaympäristöihin uusia työkaluja historiallisten tilojen rekonstruointiin. Jatkoprojekteiksi ehdotettiin rikkaampien piirrejoukkojen, vaihtoehtoisten enkoodaustapojen ja segmenttikohtaisten mallien kehittämistä, jotta ennusteiden tarkkuus paranisi. The study was conducted for a global electronics manufacturing enterprise aiming to leverage its process mining platform for predictive analytics. Sales opportunity data within the process mining platform was selected as the use case. The objective of the study was to evaluate the accuracy of machine learning models in predicting whether opportunities in the sales funnel would be won or lost. The study used Design Science Research approach, advancing through initial, intermediate, and final artifact development stages. The initial stage involved problem framing, a narrative literature review to identify optimal models, and exploratory data analysis on an initial data set. During the intermediate stage, four iterative cycles were completed, one of which had emphasis on model selection, with XGBoost ultimately being chosen as the final model. Data was transformed into time-aware snapshots to mitigate the risk of data leakage, and two distinct models were developed. At the final stage, the code repository for the model was finalized, concepts for the end-user interface were established, and the necessary data pipelines were concepted. The two final models achieved similar ROC-AUC scores of 77.53%. Both were considered suitable for win prediction, but they lacked reliability when predicting lost opportunities. The first model, with a decision threshold of 0.2, had an accuracy of 91.11%. This model only slightly outperformed the naive baseline, which involves guessing all opportunities as won. The second model had a strict decision threshold of 0.9 and performed well on precision (97.93%), which means that when the model identifies a win, it is very likely correct. However, the overall accuracy of the second model decreased to 52.53%, indicating that many actual wins were missed. The main challenges encountered were class imbalance and a limited set of input features, suggesting that including more distinctive features is necessary for improved predictive performance. The study demonstrated effective use of temporal features from process mining, while noting frequent hidden data leakage issues in prior studies. It recommended enhancing process mining platforms with better tools for reconstructing historical states. Recommendations for future projects proposed development into richer feature sets, alternative encoding strategies, and segment-specific modeling to improve predictions.
