Design of a data platform for managing research data in autonomous systems
Tuomola, Tommi (2025)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025120231626
https://urn.fi/URN:NBN:fi:amk-2025120231626
Tiivistelmä
Autonomiset merenkulkujärjestelmät nojaavat yhä enemmän heterogeeniseen sensoridataan. Tutkimuksessa keskitytään usein kuitenkin tekoälymallien optimointiin samalla kun malleista luotettavia tekeviin data-alustoihin panostetaan liian vähän. Tämä työ tarkastelee, miten data-alusta tulisi suunnitella ja hallinnoida, jotta varmistetaan datan laatu, yhteentoimivuus ja käytön jatkuvuus hankkeiden välillä.
Työ esittelee data-alustan arkkitehtuurin, joka erottaa nopean, muistioptimoidun datan vastaanoton pysyvistä varastokerroksista; asettaa relaatiotietokannat vastuuseen datakatalogista ja datanhallinnasta; sekä määrittää objektitietokannan yleisten data-artefaktien tallennukseen. Lisäksi työ vertailee RabbitMQ:ta, Apache Kafkaa ja Apache Pulsaria viestinvälitysjärjestelminä. Autonomous maritime systems increasingly depend on heterogenous sensor data yet research often optimizes AI models while underinvesting in the data platforms that make the models reliable. This thesis examines how a research data platform should be architected and governed to ensure data quality, interoperability and sustainability across projects.
The thesis delivers an architecture for a data platform that separates hot, memory-optimized ingestion from durable stores; positions relational databases as the system of record for catalogs and data governance; and uses an object storage for unstructured general data artefacts. It compares RabbitMQ, Apache Kafka and Apache Pulsar as messaging system for data and service integration in a microservices based system.
Qualitative evaluation results in a pragmatic blueprint for a data platform that makes maritime autonomy research reproducible, interoperable and future-proof.
Työ esittelee data-alustan arkkitehtuurin, joka erottaa nopean, muistioptimoidun datan vastaanoton pysyvistä varastokerroksista; asettaa relaatiotietokannat vastuuseen datakatalogista ja datanhallinnasta; sekä määrittää objektitietokannan yleisten data-artefaktien tallennukseen. Lisäksi työ vertailee RabbitMQ:ta, Apache Kafkaa ja Apache Pulsaria viestinvälitysjärjestelminä.
The thesis delivers an architecture for a data platform that separates hot, memory-optimized ingestion from durable stores; positions relational databases as the system of record for catalogs and data governance; and uses an object storage for unstructured general data artefacts. It compares RabbitMQ, Apache Kafka and Apache Pulsar as messaging system for data and service integration in a microservices based system.
Qualitative evaluation results in a pragmatic blueprint for a data platform that makes maritime autonomy research reproducible, interoperable and future-proof.
