Aineistojen ja metatietojen paketointi pitkäaikaissäilytykseen Apache Nifi -sovelluksella
Tostlebe, Julius (2024)
Tostlebe, Julius
2024
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2024052415360
https://urn.fi/URN:NBN:fi:amk-2024052415360
Tiivistelmä
Tämän opinnäytetyön tavoitteena oli ottaa käyttöön ja integroida Apache Nifi -palvelinsovellus Tieteen tietotekniikan keskuksen tarjoamiin työkaluihin. Nämä työkalut mahdollistavat pitkäaikaissäilytykseen tarkoitettujen pakettien luonnin, ja yhdessä Apache Nifin kanssa ne automatisoivat tämän luontiprosessin. Työn toimeksiantajana toimi Disec Oy, jolla oli tarve kehittää automatisoitu prosessi näiden pakettien luomiseen.
Opinnäytetyön teoriaosuus tarjoaa kattavan yleiskatsauksen pitkäaikaissäilytyksen periaatteista keskittyen erityisesti digitaalisen datan säilyttämiseen ja tallentamiseen tavalla, joka takaa sen pysyvän ymmärrettävänä ja ehjänä pitkien aikavälien yli. Erityistä huomiota kiinnitetään PAS- palveluun ja METS- dokumenttiin, jotka ovat keskeisiä käsitteitä pitkäaikaissäilytyksessä.
Käytännön osassa tehdään paketoinnin automatisointia käyttäen Apache Nifiä, joka on yritystason hallintatyökalu datan keräämiseen, muuntamiseen ja reitittämiseen. Apache Nifi mahdollistaa monimutkaisten tietovirtojen hallinnan. Työssä kehitettiin Docker- pohjainen ratkaisu, joka yhdistää Nifin monipuoliset tietovirrat Tieteen tietotekniikan keskuksen työkalujen kanssa. Tämä mahdollisti datan käsittelyprosessien hallinnan ja automatisoinnin. Työssä käsitellään myös metadatan luontia, paketointia ja METS- dokumentin validointia, jotka ovat olennaisia prosesseja pitkäaikaissäilytyksen onnistumiseksi.
Projektin tuloksena kehitettiin kolme eriteltyä prosessiryhmää Apache Nifissä, jotka mahdollistavat pitkäaikaissäilytykseen soveltuvien siirtopakettien luomisen. Nämä prosessiryhmät tehostavat dataintegraatiota ja tarjoavat mallin, joka voidaan helposti siirtää ja soveltaa uusiin ympäristöihin Docker- konttien avulla. Tämä parantaa työn siirrettävyyttä ja skaalautuvuutta. Ratkaisun myötä Disec Oy pystyy nyt automatisoimaan ja tehostamaan pitkäaikaissäilytyksen prosessejaan, mikä vähentää manuaalisen työn tarvetta ja lisää toiminnan tehokkuutta.
Opinnäytetyön teoriaosuus tarjoaa kattavan yleiskatsauksen pitkäaikaissäilytyksen periaatteista keskittyen erityisesti digitaalisen datan säilyttämiseen ja tallentamiseen tavalla, joka takaa sen pysyvän ymmärrettävänä ja ehjänä pitkien aikavälien yli. Erityistä huomiota kiinnitetään PAS- palveluun ja METS- dokumenttiin, jotka ovat keskeisiä käsitteitä pitkäaikaissäilytyksessä.
Käytännön osassa tehdään paketoinnin automatisointia käyttäen Apache Nifiä, joka on yritystason hallintatyökalu datan keräämiseen, muuntamiseen ja reitittämiseen. Apache Nifi mahdollistaa monimutkaisten tietovirtojen hallinnan. Työssä kehitettiin Docker- pohjainen ratkaisu, joka yhdistää Nifin monipuoliset tietovirrat Tieteen tietotekniikan keskuksen työkalujen kanssa. Tämä mahdollisti datan käsittelyprosessien hallinnan ja automatisoinnin. Työssä käsitellään myös metadatan luontia, paketointia ja METS- dokumentin validointia, jotka ovat olennaisia prosesseja pitkäaikaissäilytyksen onnistumiseksi.
Projektin tuloksena kehitettiin kolme eriteltyä prosessiryhmää Apache Nifissä, jotka mahdollistavat pitkäaikaissäilytykseen soveltuvien siirtopakettien luomisen. Nämä prosessiryhmät tehostavat dataintegraatiota ja tarjoavat mallin, joka voidaan helposti siirtää ja soveltaa uusiin ympäristöihin Docker- konttien avulla. Tämä parantaa työn siirrettävyyttä ja skaalautuvuutta. Ratkaisun myötä Disec Oy pystyy nyt automatisoimaan ja tehostamaan pitkäaikaissäilytyksen prosessejaan, mikä vähentää manuaalisen työn tarvetta ja lisää toiminnan tehokkuutta.