Juoksuharjoitusohjelman optimointi tekoälyn avulla : datan käsittely ja koneoppimismallin koulutus
Mannermaa, Tommy (2025)
Mannermaa, Tommy
2025
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025092224946
https://urn.fi/URN:NBN:fi:amk-2025092224946
Tiivistelmä
Opinnäytetyössä tarkasteltiin, kuinka koneoppimista voidaan hyödyntää henkilökohtaisen juoksuharjoitusohjelman optimoimisessa. Työn tavoitteena oli suunnitella, mistä tarvittava data saadaan, miten data tulee esikäsitellä ja vertailla, mikä koneoppimismalli soveltuu parhaiten kyseiseen tarkoitukseen. Koneoppimismallin tarkoitus on ennustaa ja muokata harjoitusohjelman harjoituksien intensiteettiä ja harjoitusten välistä palautumisaikaa. Aihe on ajankohtainen, koska urheilukellot tuottavat yhä enemmän dataa, jota ei välttämättä osata hyödyntää parhaalla mahdollisella tavalla ilman tekoälyä.
Työn alussa tarkasteltiin datan, datankäsittelyn ja tekoälyn perusteita. Lisäksi käytiin läpi ihmiskehon anatomiaa ja fysiologiaa juoksuharjoittelun näkökulmasta. Työssä vertailtiin kolmea eri koneoppimismallia: Random Forest, XGBoost ja LSTM ja näistä valittiin sopivin kyseiseen tarkoitukseen. Sopivimmaksi valikoitui Random Forest -koneoppimismalli, koska se sopii, kun alussa dataa on vähän ja sen päätökset ovat hyvin selitettävissä.
Työssä esitetään esimerkkiohjelmisto, jossa havainnollistetaan, miten dataa käytännössä esikäsitellään ja miten Random Forest -mallia käytetään. Tämä koodi pyrki näyttämään myös mallin kouluttamista ja hyperparametrien säätämisen tärkeyttä hyödyntämällä Scikit-Learn-kirjastoa. This thesis explores how machine learning can be utilized to optimize a personalized running training program. The objective was to design a process for acquiring the necessary data, determine how the data should be preprocessed, and evaluate which machine learning model is best suited for this specific purpose and application. The goal of the machine learning model is to adjust the intensity of training sessions and the recovery time between them. The topic is timely, as sports watches are generating increasing amounts of data that may not be fully utilized without the help of artificial intelligence.
To achieve the objectives of the thesis, data, data processing, and the fundamentals of artificial intelligence were studied, as well as human anatomy and physiology from the perspective of running training. Three different machine learning models were compared: Random Forest, XGBoost, and LSTM. Among these, Random Forest was selected as the most suitable model, particularly because it performs well with limited data and its decisions are interpretable.
The thesis includes code snippets demonstrating how data is preprocessed in practice and how the Random Forest model is applied. The code also illustrates the importance of model training and hyperparameter tuning using the ScikitLearn library.
Työn alussa tarkasteltiin datan, datankäsittelyn ja tekoälyn perusteita. Lisäksi käytiin läpi ihmiskehon anatomiaa ja fysiologiaa juoksuharjoittelun näkökulmasta. Työssä vertailtiin kolmea eri koneoppimismallia: Random Forest, XGBoost ja LSTM ja näistä valittiin sopivin kyseiseen tarkoitukseen. Sopivimmaksi valikoitui Random Forest -koneoppimismalli, koska se sopii, kun alussa dataa on vähän ja sen päätökset ovat hyvin selitettävissä.
Työssä esitetään esimerkkiohjelmisto, jossa havainnollistetaan, miten dataa käytännössä esikäsitellään ja miten Random Forest -mallia käytetään. Tämä koodi pyrki näyttämään myös mallin kouluttamista ja hyperparametrien säätämisen tärkeyttä hyödyntämällä Scikit-Learn-kirjastoa.
To achieve the objectives of the thesis, data, data processing, and the fundamentals of artificial intelligence were studied, as well as human anatomy and physiology from the perspective of running training. Three different machine learning models were compared: Random Forest, XGBoost, and LSTM. Among these, Random Forest was selected as the most suitable model, particularly because it performs well with limited data and its decisions are interpretable.
The thesis includes code snippets demonstrating how data is preprocessed in practice and how the Random Forest model is applied. The code also illustrates the importance of model training and hyperparameter tuning using the ScikitLearn library.