Accuracy versus Explainability : Machine Learning Models for Type 2 Diabetes Prediction
Liu, Roy (2025)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025100225515
https://urn.fi/URN:NBN:fi:amk-2025100225515
Tiivistelmä
Tässä opinnäytetyössä tarkasteltiin miten yleiset koneoppimismallit yhdistävät tarkkuuden ja tulkittavuuden tyypin 2 diabeteksen ennustamisessa. Työssä vertailtiin logistista regressiota, satunnaismetsää, XGBoostia ja monikerroksista perseptroniverkkoa DiaHealth-aineistolla Bangladeshista, jossa oli 5,437 anonymisoitua dataa ja 15 muuttujaa. Kohdeluokka oli epätasapainoinen, joten positiivisia tapauksia oli 6,3 prosenttia. Muuttujat standardoitiin, data jaettiin stratifioidusti suhteessa 80/20 ja hyperparametrit haettiin ristiinvalidoinnilla. Luotettavan tekoälyn periaatteiden tukemiseksi sukupuolimuuttuja jätettiin pois mahdollisen puolueellisuuden vähentämiseksi. Selitettävyys liitettiin mallien arviointiin hyödyntämällä SHAP-menetelmää globaaleihin ja paikallisiin attribuutioihin sekä LIME-menetelmää tapauskohtaiseen tarkasteluun, jossa paikallinen analyysi kohdistettiin vääriin negatiivisiin, koska niiden lääketieteelliset riskit ovat suuremmat.
Tuloksista selvisi johdonmukaisesti, että korkeampi glukoositaso lisäsi ennustettua riskiä voimakkaimmin, kun taas verenpainetaudin puuttuminen ja nuorempi ikä usein pienensivät riskiä. Logistinen regressio tarjosi suoraviivaiset perustelut ja vakaat paikalliset selitykset. Satunnaismetsä tuotti samankaltaisen tärkeysjärjestyksen, mutta enemmän tapauskohtaista vaihtelua. XGBoostilla oli vahva erotuskyky ja sen selitykset olivat johdonmukaisia sekä globaaleissa yhteenvedoissa että tarkastellussa paikallistapauksissa. Monikerroksinen perseptroniverkko tukeutui voimakkaasti BMI:hin glukoosin ohella ja tuotti tarkastellussa tapauksessa ylivarmat todennäköisyydet.
Pelkät suorituskykymittarit, kuten tarkkuus, täsmällisyys ja herkkyys eivät riitä mallien käyttöönoton perusteeksi. Suorituskyvyn arvioinnin yhdistäminen SHAP- ja LIME-selityksiin loi jäljitettävän perusteluketjun, joka selvensi miksi ennuste kallistuu positiiviseen tai negatiiviseen luokkaan.
Mahdollisena jatkotyönä olisi ulkoisen validoinnin tekeminen riippumattomilla aineistoilla ja erityisesti paikallisen validoinnin tekeminen pohjoismaisilla, mieluiten suomalaisilla kohorteilla, jotta yleistettävyys voitaisiin arvioida ja kontekstiin sopivat kynnysarvot kalibroida. Lisäksi, jos herkät attribuutit otettaisiin mukaan, tulisi arvioida alaryhmäoikeudenmukaisuutta raportoimalla suorituskyky ja kalibraatio erikseen kullekin ryhmälle sekä laajentaa mallivalikoimaa. Tämä työ tarjoaa läpinäkyvän ja toistettavan kokonaisuuden sekä käytännöllisen mallin siitä, miten tarkkuus ja tulkittavuus voitiin yhdistää diabeteksen riskin ennustamisessa. This thesis examined how common machine learning models balance accuracy and interpretability for Type 2 diabetes prediction. The study compared logistic regression, random forest, XGBoost, and a multilayer perceptron on the public DiaHealth dataset from Bangladesh with 5,437 anonymized records and 15 features. The target was imbalanced with 6,3 percent positives. Features were standardized, the data were split 80/20 with stratification, and hyperparameters were tuned by cross-validation. To support trustworthy AI use, the gender variable was excluded to reduce potential bias. Post-hoc explainability was integrated into the evaluation by applying SHAP for global and local attributions and LIME for case-level analysis, with local inspection focused on false negatives because missed positives carry higher clinical risks.
The results showed a consistent global pattern where higher glucose levels increased the predicted risk most strongly, while being non-hypertensive and younger often reduced it. Logistic regression provided the most straightforward, rational, and stable local attributions. Random forest exhibited similar rankings with greater sample-to-sample variability. XGBoost combined strong discriminative performance and explanations that were consistent across global summaries and the local case. The multilayer perceptron relied heavily on BMI alongside glucose and produced overconfident probabilities on the inspected case.
The analysis indicates that headline metrics such as accuracy, precision, and recall are insufficient for deployment. Coupling performance evaluations with SHAP and LIME created an audit trail that clarifies why decisions move toward the positive or negative class.
Future work should include external validation on independent datasets and, critically, local validation on Nordic, preferably Finnish, cohorts to assess generalizability and calibrate context-specific thresholds. It should also include subgroup fairness analysis if sensitive attributes are reintroduced, by reporting performance and calibration separately for each group, and a broader exploration of model families. The thesis thus contributes a transparent, reproducible pipeline and a practical template for combining accuracy with interpretability in diabetes risk prediction.
Tuloksista selvisi johdonmukaisesti, että korkeampi glukoositaso lisäsi ennustettua riskiä voimakkaimmin, kun taas verenpainetaudin puuttuminen ja nuorempi ikä usein pienensivät riskiä. Logistinen regressio tarjosi suoraviivaiset perustelut ja vakaat paikalliset selitykset. Satunnaismetsä tuotti samankaltaisen tärkeysjärjestyksen, mutta enemmän tapauskohtaista vaihtelua. XGBoostilla oli vahva erotuskyky ja sen selitykset olivat johdonmukaisia sekä globaaleissa yhteenvedoissa että tarkastellussa paikallistapauksissa. Monikerroksinen perseptroniverkko tukeutui voimakkaasti BMI:hin glukoosin ohella ja tuotti tarkastellussa tapauksessa ylivarmat todennäköisyydet.
Pelkät suorituskykymittarit, kuten tarkkuus, täsmällisyys ja herkkyys eivät riitä mallien käyttöönoton perusteeksi. Suorituskyvyn arvioinnin yhdistäminen SHAP- ja LIME-selityksiin loi jäljitettävän perusteluketjun, joka selvensi miksi ennuste kallistuu positiiviseen tai negatiiviseen luokkaan.
Mahdollisena jatkotyönä olisi ulkoisen validoinnin tekeminen riippumattomilla aineistoilla ja erityisesti paikallisen validoinnin tekeminen pohjoismaisilla, mieluiten suomalaisilla kohorteilla, jotta yleistettävyys voitaisiin arvioida ja kontekstiin sopivat kynnysarvot kalibroida. Lisäksi, jos herkät attribuutit otettaisiin mukaan, tulisi arvioida alaryhmäoikeudenmukaisuutta raportoimalla suorituskyky ja kalibraatio erikseen kullekin ryhmälle sekä laajentaa mallivalikoimaa. Tämä työ tarjoaa läpinäkyvän ja toistettavan kokonaisuuden sekä käytännöllisen mallin siitä, miten tarkkuus ja tulkittavuus voitiin yhdistää diabeteksen riskin ennustamisessa.
The results showed a consistent global pattern where higher glucose levels increased the predicted risk most strongly, while being non-hypertensive and younger often reduced it. Logistic regression provided the most straightforward, rational, and stable local attributions. Random forest exhibited similar rankings with greater sample-to-sample variability. XGBoost combined strong discriminative performance and explanations that were consistent across global summaries and the local case. The multilayer perceptron relied heavily on BMI alongside glucose and produced overconfident probabilities on the inspected case.
The analysis indicates that headline metrics such as accuracy, precision, and recall are insufficient for deployment. Coupling performance evaluations with SHAP and LIME created an audit trail that clarifies why decisions move toward the positive or negative class.
Future work should include external validation on independent datasets and, critically, local validation on Nordic, preferably Finnish, cohorts to assess generalizability and calibrate context-specific thresholds. It should also include subgroup fairness analysis if sensitive attributes are reintroduced, by reporting performance and calibration separately for each group, and a broader exploration of model families. The thesis thus contributes a transparent, reproducible pipeline and a practical template for combining accuracy with interpretability in diabetes risk prediction.
