Utveckling av standardiserat verktyg för visualisering och analys av sensordata – med Azure Databricks
Kumpu, William (2024)
Kumpu, William
2024
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2024061222962
https://urn.fi/URN:NBN:fi:amk-2024061222962
Tiivistelmä
Detta examensarbete handlar om visualisering och hantering av data inom Azure Databricks. Uppdraget var att underlätta användningen av programmet för operatörer samt analytiker som eventuellt inte är bekanta med programmering sedan tidigare. Intervjuer utfördes tillsammans med personalen för att få fram vilken data de var intresserade av samt för att få en förståelse för hur de har hämtat och behandlat data tidigare. Sedan gjordes verktyg anpassade för deras önskemål. Det gjordes två olika verktyg för personalen.
Dessa verktyg gjordes i Azure Databricks, med hjälp av Python och SQL samt flera moduler och bibliotek som hör till, såsom PySpark. Först gjordes en notebook var användaren väljer maskin samt typ av sensor, och senare specifik sensor med tidsfiltrering. Detta verktyg skulle underlätta datasökningsprocessen för personalen och fungera som en bra startpunkt för nya användare, eftersom programmet gjordes med användarvänlighet i beaktande. Sedan gjordes en instrumentpanel för energiförbrukning per maskin med tidsfiltrering som analytiker kan använda för att se var fabriken förbrukar energi.
Examensarbetet resulterade i två lättförståeliga verktyg som personalen kan använda i Databricks, var de kan få den data de är ute efter smidigt och enkelt. Widgets gör det betydligt enklare för användaren att lägga till filtreringar, i stället för att användarna själv måste skriva eller ändra kod i SQL eller Python. Med verktygen kan personalen bli mera bekanta med Databricks och dess möjligheter, samt lätt hitta data om sensorer för analysering. This thesis revolves around the visualisation and management of data within Azure Databricks. The task was to facilitate the use of the program for operators and analysts who might not be familiar with programming. The mission was to conduct interviews with the staff to determine the data they are interested in and how they have previously obtained it. Then, tools tailored to their requirements were developed. Two different tools were created for the staff.
These tools were built using Azure Databricks notebooks and dashboards, utilising Python and SQL, along with several modules and libraries such as PySpark. Firstly, a notebook was created where the user could select the machine and type of sensor, and later a specific sensor with a time filter. This tool aimed to streamline the data retrieval process for the staff and serve as a good starting point for new users, given the program's high user-friendliness. Secondly, a dashboard was developed to monitor energy consumption per machine with a time filter, which analysts could use to identify which machine is using energy and when.
The outcome was two user-friendly tools that staff can use in Databricks to smoothly obtain the data they are looking for. With the help of widgets, adding filters becomes significantly easier than users having to write or modify code in SQL or Python themselves. With these tools, staff can delve deeper into the Databricks program and easily find sensor data for analysis.
Dessa verktyg gjordes i Azure Databricks, med hjälp av Python och SQL samt flera moduler och bibliotek som hör till, såsom PySpark. Först gjordes en notebook var användaren väljer maskin samt typ av sensor, och senare specifik sensor med tidsfiltrering. Detta verktyg skulle underlätta datasökningsprocessen för personalen och fungera som en bra startpunkt för nya användare, eftersom programmet gjordes med användarvänlighet i beaktande. Sedan gjordes en instrumentpanel för energiförbrukning per maskin med tidsfiltrering som analytiker kan använda för att se var fabriken förbrukar energi.
Examensarbetet resulterade i två lättförståeliga verktyg som personalen kan använda i Databricks, var de kan få den data de är ute efter smidigt och enkelt. Widgets gör det betydligt enklare för användaren att lägga till filtreringar, i stället för att användarna själv måste skriva eller ändra kod i SQL eller Python. Med verktygen kan personalen bli mera bekanta med Databricks och dess möjligheter, samt lätt hitta data om sensorer för analysering.
These tools were built using Azure Databricks notebooks and dashboards, utilising Python and SQL, along with several modules and libraries such as PySpark. Firstly, a notebook was created where the user could select the machine and type of sensor, and later a specific sensor with a time filter. This tool aimed to streamline the data retrieval process for the staff and serve as a good starting point for new users, given the program's high user-friendliness. Secondly, a dashboard was developed to monitor energy consumption per machine with a time filter, which analysts could use to identify which machine is using energy and when.
The outcome was two user-friendly tools that staff can use in Databricks to smoothly obtain the data they are looking for. With the help of widgets, adding filters becomes significantly easier than users having to write or modify code in SQL or Python themselves. With these tools, staff can delve deeper into the Databricks program and easily find sensor data for analysis.