dc.contributor.author | Jantunen, Mikael | - |
dc.date.accessioned | 2017-05-22T11:32:03Z | |
dc.date.available | 2017-05-22T11:32:03Z | |
dc.date.issued | 2017 | - |
dc.identifier.uri | URN:NBN:fi:amk-201705229334 | - |
dc.identifier.uri | http://www.theseus.fi/handle/10024/128517 | |
dc.description.abstract | Opinnäytetyön tavoitteena oli tutkia Big datan analysointia avoimen datan avulla sekä sen visualisointiin käytettäviä työkaluja. Työ suoritettiin virtuaalikoneelle asennetussa Apachen Hadoop -ympäristössä. Data työn tekemiseen haettiin Suomen Ilmatieteen laitoksen avoimesta rajapinnasta.
Opinnäytetyön teoriaosuudessa käsitellään yleisesti, mitä Big data on, Apache Hadoop -ekosysteemiä, data-analyysin eri vaiheita sekä R-ohjelmointikieltä. Big datasta käydään läpi sen ominaisuuksia sekä määritelmiä. Apachen Hadoopista kerrotaan sen oleellisimpia osia sekä niiden toimintaperiaatteita. Työssä käydään myös lyhyesti läpi Microsoft Excelin, Microsoft Power BI:n sekä Hadoop Huen käyttöä visualisointityökaluina.
Opinnäytetyön käytännön osuudessa käytiin läpi datan hakeminen, käsittely ja visualisointi. Datana käytettiin Ilmatieteen laitoksen avointa dataa Lahdesta, mikä sisälsi esimerkiksi lämpötiloja ja lumen syvyyksiä. Datan hakemiseksi ohjelmoitiin kaksi Java-ohjelmaa, joista toinen haki datan Ilmatieteen laitoksen palvelimelta ja toinen muutti sen käsiteltävämpään muotoon. Data käsiteltiin Apache Hadoopin ja R-ohjelmointikielen yhdistävällä RHadoop-paketilla, jossa MapReducen avulla laskettiin saadulle datalle päivittäinen keskiarvo. Tämän jälkeen dataa vielä visualisoitiin. | fi |
dc.description.abstract | The objective of this thesis was to study big data analysis using open data and also to examine the tools used for visualizing big data. A virtual machine with the Apache Hadoop environment was used to achieve this. The data was collected from the Finnish Meteorological Institute’s open data API.
The theory part of the thesis deals with what big data is, what the Apache Hadoop ecosystem is, the different steps of data analysis and the R -programming language and environment. There is also a brief overview of how Microsoft Excel, Microsoft Power BI and Hadoop Hue can be used as visualization tools.
The practical part of the thesis explains the collecting of the data, its manipulation and visualization. The data from the Finnish Meteorological Institute contained values for example for temperature and snow depth in Lahti. To collect the data, two Java programs were made. One was used for collecting the data and the other converted the data for easier handling. The data was handled in RHadoop, which is a package to use R-language with Apache Hadoop’s Mapreduce-operations. This was used to calculate the daily mean values for the data. After that the data was visualized. | en |
dc.language.iso | fin | - |
dc.publisher | Lahden ammattikorkeakoulu | - |
dc.rights | All rights reserved | - |
dc.title | Big datan analysointi | fi |
dc.type.ontasot | fi=AMK-opinnäytetyö|sv=YH-examensarbete|en=Bachelor's thesis| | |
dc.identifier.dscollection | 10024/326 | - |
dc.organization | Lahden ammattikorkeakoulu | - |
dc.contributor.organization | Lahden ammattikorkeakoulu | - |
dc.subject.keyword | Apache Hadoop | - |
dc.subject.keyword | R-ohjelmointikieli | - |
dc.subject.keyword | RHadoop | - |
dc.subject.keyword | MapReduce | - |
dc.subject.keyword | Big data | - |
dc.subject.degreeprogram | fi=Tieto- ja viestintätekniikka|sv=Informations- och kommunikationsteknik|en=Information and Communications Technology| | - |
dc.subject.discipline | Tietotekniikan koulutusohjelma | - |