Big data ja Apache Hadoop
Honkasalo, Kirsi (2016)
Honkasalo, Kirsi
Haaga-Helia ammattikorkeakoulu
2016
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-201605178305
https://urn.fi/URN:NBN:fi:amk-201605178305
Tiivistelmä
Opinnäytetyön tarkoituksena on luoda tiivistelmä big datasta, Hadoopista ja sen käytöstä. Mitä big data on, mihin sitä käytetään ja mitkä ovat sen hyödyt.
Datan kerääminen sinänsä on suhteellisen helppoa, kerätään data ja säilötään se. Tällä ei kui-tenkaan vielä saavuteta minkäänlaista lisäarvoa. Kerätty data täytyy yhdistää muuhun yrityk-sen dataan. Laitedata (IoT) pitää yhdistää esimerkiksi tuotedataan tai yrityksen keräämä data täytyy yhdistää ulkoisesti hankittuun dataan esimerkiksi säädataan.
Tietolähteinä on käytetty aiheeseen liittyvää kirjallisuutta, lehtiartikkeleita ja videoita. Kaikki lähteet käsittelevät Big dataa.
Opinnäytetyössä käydään läpi big datan työvälineitä Apache Hadoop, MapReduce, HDFS, Pig ja Hive. Työvälineitä käsitellään näkökulmasta mihin ja millaiseen tiedon käsittelyyn kukin näistä sopii.
Internet of things (IoT) on kuvaus sille, että laitteita on kytketty verkkoon. Tämä liittyy oleelli-sesti big dataan. Laitteista voi verkon kautta kerätä tietoa ja niitä voi ohjata verkon kautta.
Big data ja pilviteknologia kulkevat käsikädessä. Big data tarvitsee useita palvelimia pro-sessiin, pilvipalvelut pystyvät tämän tarjoamaan.
Datan kerääminen sinänsä on suhteellisen helppoa, kerätään data ja säilötään se. Tällä ei kui-tenkaan vielä saavuteta minkäänlaista lisäarvoa. Kerätty data täytyy yhdistää muuhun yrityk-sen dataan. Laitedata (IoT) pitää yhdistää esimerkiksi tuotedataan tai yrityksen keräämä data täytyy yhdistää ulkoisesti hankittuun dataan esimerkiksi säädataan.
Tietolähteinä on käytetty aiheeseen liittyvää kirjallisuutta, lehtiartikkeleita ja videoita. Kaikki lähteet käsittelevät Big dataa.
Opinnäytetyössä käydään läpi big datan työvälineitä Apache Hadoop, MapReduce, HDFS, Pig ja Hive. Työvälineitä käsitellään näkökulmasta mihin ja millaiseen tiedon käsittelyyn kukin näistä sopii.
Internet of things (IoT) on kuvaus sille, että laitteita on kytketty verkkoon. Tämä liittyy oleelli-sesti big dataan. Laitteista voi verkon kautta kerätä tietoa ja niitä voi ohjata verkon kautta.
Big data ja pilviteknologia kulkevat käsikädessä. Big data tarvitsee useita palvelimia pro-sessiin, pilvipalvelut pystyvät tämän tarjoamaan.