Predicting real estate value with data analysis
Gu, Stephan (2024)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2024121535927
https://urn.fi/URN:NBN:fi:amk-2024121535927
Tiivistelmä
This thesis explores the dynamics affecting Finland’s real estate market, focusing on factors that influence property values. By using data from KVKL’s Hintaseurantapalvelu (Price Tracking Service) the study identifies key determinants such as location, accessibility, housing type, age, condition, energy efficiency, and building materials. Urban properties are generally priced higher if they are located near public transport because they are easy access points to the shopping facilities and leisure activities.
Challenges in data cleaning, including mismatched postal codes, inconsistent attributes, and language barriers in preprocessing tools, posed difficulties in the analysis. Different techniques such as fuzzywuzzy matching text data were applied; yet the poor quality of available information limited the improvement. Hedonic regression models were considered for multi-attribute property value estimation; however, the local calibration processes led to a high risk of overfitting as was the case with such models.
The results indicate that the properties located in the city, namely in the public transit access area, had a higher price. Moreover, long-term predictions for pricing within 12 months showed higher effectiveness than a short time, which was the case of the data. This thesis explores improving data quality for real estate analysis and sales predictions in the Finnish market through enhanced geocoding and standardized naming. Tässä opinnäytetyössä tutkittiin Suomen kiinteistönmarkkinoiden dynamiikkaa keskittyen tekijöihin, jotka vaikuttavat kiinteistöhintoihin, käyttäen KVKL:n Hintaseurantapalvelun dataa. Opinnäytetyössä tunnistettiin keskeiset tekijät, kuten sijainnin, saavutettavuuden, asuntotyypin, iän, kunnon, energiatehokkuuden ja rakennusmateriaalit. Kaupunkikiinteistöt ja erityisesti ne, jotka sijaitsevat lähellä julkista liikennettä, ovat arvokkaampia, koska ne tarjoavat paremman pääsyn palveluihin, kuten ostoksiin ja viihteeseen. Energiatehokkaat kodit, joissa käytetään kestäviä materiaaleja, houkuttelevat myös korkeampia hintoja, mikä heijastaa kasvavaa ympäristötietoisuutta.
Datan puhdistamiseen liittyvät haasteet, kuten virheelliset postinumerot, epätarkat attribuutit ja kielimuuri analyysityökaluissa, vaikeuttivat tutkimusta. Erilaisia strategioita, kuten tekstidatan korjaustyökaluja (esim. fuzzywuzzy), tutkittiin, mutta datan laatuongelmat rajoittivat niiden hyötyjä. Hedoniset regressiomallit otettiin huomioon kiinteistöhintojen arvioimiseksi, mutta ylisovittamisen riski oli huolenaiheena.
Tulokset osoittivat, että kaupunkikiinteistöt, erityisesti julkisen liikenteen yhteyksien alueilla, ovat arvokkaita. 12 kuukauden ennusteet olivat tehokkaampia lyhyempiin jaksoihin verrattuna, koska ne ottavat huomioon pidemmän aikavälin ja enemmän arvoja. Tämä opinnäytetyö tutkii kiinteistöanalyysin ja myyntiennusteiden parantamista Suomen markkinoilla paremmalla geokoodauksella ja yhtenäisemmillä nimikkeillä.
Challenges in data cleaning, including mismatched postal codes, inconsistent attributes, and language barriers in preprocessing tools, posed difficulties in the analysis. Different techniques such as fuzzywuzzy matching text data were applied; yet the poor quality of available information limited the improvement. Hedonic regression models were considered for multi-attribute property value estimation; however, the local calibration processes led to a high risk of overfitting as was the case with such models.
The results indicate that the properties located in the city, namely in the public transit access area, had a higher price. Moreover, long-term predictions for pricing within 12 months showed higher effectiveness than a short time, which was the case of the data. This thesis explores improving data quality for real estate analysis and sales predictions in the Finnish market through enhanced geocoding and standardized naming.
Datan puhdistamiseen liittyvät haasteet, kuten virheelliset postinumerot, epätarkat attribuutit ja kielimuuri analyysityökaluissa, vaikeuttivat tutkimusta. Erilaisia strategioita, kuten tekstidatan korjaustyökaluja (esim. fuzzywuzzy), tutkittiin, mutta datan laatuongelmat rajoittivat niiden hyötyjä. Hedoniset regressiomallit otettiin huomioon kiinteistöhintojen arvioimiseksi, mutta ylisovittamisen riski oli huolenaiheena.
Tulokset osoittivat, että kaupunkikiinteistöt, erityisesti julkisen liikenteen yhteyksien alueilla, ovat arvokkaita. 12 kuukauden ennusteet olivat tehokkaampia lyhyempiin jaksoihin verrattuna, koska ne ottavat huomioon pidemmän aikavälin ja enemmän arvoja. Tämä opinnäytetyö tutkii kiinteistöanalyysin ja myyntiennusteiden parantamista Suomen markkinoilla paremmalla geokoodauksella ja yhtenäisemmillä nimikkeillä.