Kysynnän ennustamisen mallien vertaileva suorituskykyanalyysi: aikasarjaennustaminen Python-ympäristössä.
Pyrhönen, Hanna (2026)
Pyrhönen, Hanna
2026
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202604146393
https://urn.fi/URN:NBN:fi:amk-202604146393
Tiivistelmä
Opinnäytetyössä käsitellään koneoppimismenetelmien suorituskykyä ja soveltuvuutta B2B-myynnin aikasarjaennustamiseen. Tutkimuksen tavoitteena on löytää optimaalinen tasapaino ennustetarkkuuden ja laskennallisen resurssitehokkuuden välillä liiketoiminnan suunnittelun tueksi.
Toimeksiantajana on vesitehokkuuspalveluita tarjoava teknologiayritys Smartvatten Oy, ja tutkimusaineistona käytetään yrityksen historiallista kuukausitason B2B-myyntidataa. Työssä vertaillaan kolmea erilaista ennustemenetelmää: additiivista regressiomallia (Prophet), päätöspuita yhdistävää ensemble-menetelmää (Random Forest) sekä syväoppimiseen perustuvaa neuroverkkomallia (LSTM). Vertailua varten kehitettiin Python-pohjainen benchmarking-kehys, joka mittaa systemaattisesti mallien ennustetarkkuutta sekä laskennallista tehokkuutta, kuten muistinkulutusta ja suoritusaikaa vakioidussa ajoympäristössä.
Tulokset osoittavat, että Prophet-malli saavutti parhaan keskimääräisen ennustetarkkuuden, ja sen resurssien kulutus pysyi kohtuullisena. Prophetin vahvuutena on myös sen kyky toimia luotettavasti verrattain pienellä, 36 kuukauden havaintoaineistolla. Syväoppimismalli LSTM saavutti pienimmän maksimivirheen, mutta sen heikkouksina olivat vertailun selvästi suurin muistinkulutus ja pisin koulutusaika. Lisäksi LSTM-mallin täysi potentiaali ei päässyt oikeuksiinsa pienen aineiston vuoksi. Random Forest osoittautui malleista nopeimmaksi kouluttaa ja se vei vähiten muistia, mutta sen ennustetarkkuus oli selvästi muita heikompi, koska puupohjaiset mallit vaativat aikasarjaennustamisessa merkittävästi monimutkaisempaa piirresuunnittelua.
Johtopäätöksenä todetaan, että rajallisella aineistolla kevyempi ja tulkittavampi malli, kuten Prophet, on liiketoiminnallisesti optimaalisin ja käyttökelpoisin ratkaisu. Tulokset tukevat vahvasti vihreän tietotekniikan (Green IT) periaatteita. Tunnistamalla ja valitsemalla laskennallisesti tehokkaimmat mallit voidaan välttää raskaiden neuroverkkojen tarpeeton käyttö, mikä säästää pilviresursseja ja vähentää ennusteprosessien energiankulutusta.
Jatkotutkimusehdotuksina esitetään aineiston rikastamista yksityiskohtaisemmalla datalla, monimuuttujamallien testaamista myyntiputken datalla sekä LSTM-mallin uudelleenarviointia silloin, kun historiadataa on kertynyt huomattavasti enemmän.
Toimeksiantajana on vesitehokkuuspalveluita tarjoava teknologiayritys Smartvatten Oy, ja tutkimusaineistona käytetään yrityksen historiallista kuukausitason B2B-myyntidataa. Työssä vertaillaan kolmea erilaista ennustemenetelmää: additiivista regressiomallia (Prophet), päätöspuita yhdistävää ensemble-menetelmää (Random Forest) sekä syväoppimiseen perustuvaa neuroverkkomallia (LSTM). Vertailua varten kehitettiin Python-pohjainen benchmarking-kehys, joka mittaa systemaattisesti mallien ennustetarkkuutta sekä laskennallista tehokkuutta, kuten muistinkulutusta ja suoritusaikaa vakioidussa ajoympäristössä.
Tulokset osoittavat, että Prophet-malli saavutti parhaan keskimääräisen ennustetarkkuuden, ja sen resurssien kulutus pysyi kohtuullisena. Prophetin vahvuutena on myös sen kyky toimia luotettavasti verrattain pienellä, 36 kuukauden havaintoaineistolla. Syväoppimismalli LSTM saavutti pienimmän maksimivirheen, mutta sen heikkouksina olivat vertailun selvästi suurin muistinkulutus ja pisin koulutusaika. Lisäksi LSTM-mallin täysi potentiaali ei päässyt oikeuksiinsa pienen aineiston vuoksi. Random Forest osoittautui malleista nopeimmaksi kouluttaa ja se vei vähiten muistia, mutta sen ennustetarkkuus oli selvästi muita heikompi, koska puupohjaiset mallit vaativat aikasarjaennustamisessa merkittävästi monimutkaisempaa piirresuunnittelua.
Johtopäätöksenä todetaan, että rajallisella aineistolla kevyempi ja tulkittavampi malli, kuten Prophet, on liiketoiminnallisesti optimaalisin ja käyttökelpoisin ratkaisu. Tulokset tukevat vahvasti vihreän tietotekniikan (Green IT) periaatteita. Tunnistamalla ja valitsemalla laskennallisesti tehokkaimmat mallit voidaan välttää raskaiden neuroverkkojen tarpeeton käyttö, mikä säästää pilviresursseja ja vähentää ennusteprosessien energiankulutusta.
Jatkotutkimusehdotuksina esitetään aineiston rikastamista yksityiskohtaisemmalla datalla, monimuuttujamallien testaamista myyntiputken datalla sekä LSTM-mallin uudelleenarviointia silloin, kun historiadataa on kertynyt huomattavasti enemmän.
