Datan visualisointitekniikat Pythonilla
Sundell, Kalle (2021)
Sundell, Kalle
2021
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202104064268
https://urn.fi/URN:NBN:fi:amk-202104064268
Tiivistelmä
Opinnäytetyön tarkoituksena oli luoda ohjekirja datan visualisoinnin aloittamiseen Python-ohjelmointikielellä. Datan käsittely- ja visualisointitaidot ovat hyödyllisiä esimerkiksi it-alalla sekä ylipäätänsä nykypäivän datavetoisessa maailmassa. Opinnäytetyöllä ei ollut erillistä toimeksiantajaa, vaan idea syntyi omasta mielenkiinnosta asiaa kohtaan. Tarkoituksena oli selvittää, miten dataa voidaan visualisoida Python-kielellä hyödyntäen Matplotlib ja Seaborn -kirjastoja.
Opinnäytetyön teoreettisessa osassa paneudutaan datan peruskäsitteisiin, sekä tutustutaan käytettäviin ohjelmistoihin, ohjelmointikieleen ja kirjastoihin. Opinnäytetyö on tyypiltään toiminnallinen. Tämä ilmenee käytännön osassa suoritetuissa visualisointiharjoitteissa. Käytännön osan myötä lukijalle jää mielikuva siitä, miten dataa visualisoidaan käytännössä. Hyvä tasapaino teoria- ja käytännönosan välillä antaa kokonaisvaltaisen kuvan datan visualisointiprosessista.
Lopputuloksissa havaittiin Pythonin erinomainen soveltuvuus datan visualisointitehtäviin. Visualisointien toteuttaminen on suhteellisen helppoa, eikä se vaadi syvää ohjelmointiosaamista. Tämän lisäksi huomattiin, miten paljon vähemmän koodirivejä vaaditaan, kun Matplotlib-kirjaston sijaan käytetään Seaborn-kirjastoa. Seabornin tuottamat visualisoinnit ovat myös tyypillisesti katsojaystävällisempiä, ja ne ovat helpommin kustomoitavissa. The purpose of this thesis was to create a guide for starting data visualization using Python. Data processing and visualization skills are essential in modern working life, considering today’s data-driven world. This thesis had no commissioner. The idea for this thesis sparked out of the creator’s personal interest regarding the subject. The main purpose of this thesis was to discover how data can be visualized using Python programming language and its vast collection of programming libraries, namely the Matplotlib and Seaborn libraries.
In the theory part of the thesis relevant definitions regarding the subject are introduced. In addition, the software used in the thesis are also introduced in-depth. However, this thesis is of practical type. This becomes especially prevalent in the latter part of the thesis, where real life data is visualized using real life techniques. All in all, a good balance between theory and practicality ensures a good general overview of the subject.
Several conclusions were observed in the end results. First, Python is an excellent language for data visualization. As a high-level language, it does not require one to have a deep understanding of programming to understand the syntax and execute basic tasks. It also has a powerful set of open-source libraries for programmers to take advantage of. It was also observed that while both Matplotlib and Seaborn are powerful visualization tools, the latter consumes less code and in general, the visualization plots created by Seaborn are higher in quality and much more customizable.
Opinnäytetyön teoreettisessa osassa paneudutaan datan peruskäsitteisiin, sekä tutustutaan käytettäviin ohjelmistoihin, ohjelmointikieleen ja kirjastoihin. Opinnäytetyö on tyypiltään toiminnallinen. Tämä ilmenee käytännön osassa suoritetuissa visualisointiharjoitteissa. Käytännön osan myötä lukijalle jää mielikuva siitä, miten dataa visualisoidaan käytännössä. Hyvä tasapaino teoria- ja käytännönosan välillä antaa kokonaisvaltaisen kuvan datan visualisointiprosessista.
Lopputuloksissa havaittiin Pythonin erinomainen soveltuvuus datan visualisointitehtäviin. Visualisointien toteuttaminen on suhteellisen helppoa, eikä se vaadi syvää ohjelmointiosaamista. Tämän lisäksi huomattiin, miten paljon vähemmän koodirivejä vaaditaan, kun Matplotlib-kirjaston sijaan käytetään Seaborn-kirjastoa. Seabornin tuottamat visualisoinnit ovat myös tyypillisesti katsojaystävällisempiä, ja ne ovat helpommin kustomoitavissa.
In the theory part of the thesis relevant definitions regarding the subject are introduced. In addition, the software used in the thesis are also introduced in-depth. However, this thesis is of practical type. This becomes especially prevalent in the latter part of the thesis, where real life data is visualized using real life techniques. All in all, a good balance between theory and practicality ensures a good general overview of the subject.
Several conclusions were observed in the end results. First, Python is an excellent language for data visualization. As a high-level language, it does not require one to have a deep understanding of programming to understand the syntax and execute basic tasks. It also has a powerful set of open-source libraries for programmers to take advantage of. It was also observed that while both Matplotlib and Seaborn are powerful visualization tools, the latter consumes less code and in general, the visualization plots created by Seaborn are higher in quality and much more customizable.