Tiedon virtauksen hallinta metadatan avulla
Laaksonen, Janne (2020)
Laaksonen, Janne
2020
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202003133407
https://urn.fi/URN:NBN:fi:amk-202003133407
Tiivistelmä
Oli kyseessä sitten henkilötiedot, pörssiyrityksen liiketoimintatiedot tai somessa liikkuvat tiedot – kaikki kaipaavat avoimuutta ja näkyvyyttä siihen, miten, missä, milloin ja kuka on tiedon luonut tai kuka tietoa käyttää.
Yksinkertaisesti sanottuna metadata on tietoa tiedosta, mutta yhden tuottama metadata on toiselle liiketoiminnan tietoa. Metadata pitää sisällään esimerkiksi tietoa siitä, onko tieto numeraalista vai tekstiä, milloin tieto on luotu tai kuka sen on luonut. Metadataa on selkeimmin esillä tietokannoissa, mutta metadataa voidaan myös kerätä muualta, kuten esimerkiksi ohjelmointikoodista (muuttujat), kuvista tai sosiaalisesta mediasta.
Tiedon virtaus (engl. data flow) on tiedon siirtämistä tietojärjestelmästä toiseen. Tiedon siirrossa yleisimmin käytetty tapa on ETL (engl. Extract, Transform & Load). Tällä tarkoitetaan tiedon siirron jakamista kolmeen osaan: tiedon hakeminen lähdejärjestelmästä, tiedon muokkaaminen ja tiedon lataaminen kohdejärjestelmään.
Data Lineage on tietovirran hallintaa metadatan avulla siten, että lähdejärjestelmän metadata liitetään siirrossa tehtäviin tiedon muokkaussääntöihin ja kohdejärjestelmän tietokannan metadataan.
Verkostoituneissa järjestelmissä Data Lineage muodostaa ”putken” tai ”puun”, josta näkyy mistä järjestelmistä tieto on peräisin ja missä muodossa se on talletettu, mutta yksittäistä tietoelementtiä ei näe. Asiaa voisi verrata kodin vesiputkeen, josta putkea seuraamalla päätyy aina isompaan putkeen, ja lopulta vesilaitokseen, ja sieltä sinne mistä laitos ottaa vetensä. Kuvauksesta ei pystyttäisi tunnistamaan yksittäistä vesipisaraa, mutta pystytään kuvaamaan koko putkisto, mistä se lähtee ja minne kaikkialle se päätyy.
Data Lineage voidaan katsoa kahdesta eri suunnasta. Lähdejärjestelmästä katsoen putki näyttää ”puulta”, ja siitä näkee mihin kaikkialle yksittäistä tietoa käytetään. Tätä voi käyttää hyväkseen esimerkiksi muutoksen hallinnassa tai data-arkkitehtuurisessa tietojen hallinnassa. Raportoinnista katsoen Data Lineage näyttää, mistä järjestelmistä kyseinen arvo on tullut, ja millä laskusäännöillä se on muodostettu. Tämä on tiedon avoimuuden kannalta tärkeää, jotta voidaan todeta, että tieto on laskettu oikein.
Yhdistämällä Data Lineage muuhun tietoon, voidaan myös saavuttaa tietoa siitä, että kuka omistaa, käyttää ja auditoi kyseisen tiedon tai minne tieto on tallennettu. Tämä auttaa organisaatioita hallitsemaan tietoa tietolähtöisesti (esim. GDPR, Brexit vaikutukset, maakohtaiset tietosuojasäännöt.) Let it be personal information, business information of listed companies, or social media - everyone needs transparency and visibility on how, where, when and who created the information or who uses it.
Simply put metadata is information about information, but metadata produced by one is critical business information to another. Metadata includes information such as whether the information is numeric or textual, when it was created, or who created it. Metadata is most prominently displayed in databases, but metadata can also be collected elsewhere, such as programming code (variables), images or social media.
Data flow is transferring data from one system to another. The most commonly used method of data transfer is ETL (Extract, Transform & Load). This means dividing the data transfer into three parts: retrieving data from the source system, modifying the data, and uploading the data to the destination system.
Data Lineage is visualizing the data flow by linking the source system's metadata to the data transformation rules, which are performed during the transformation and to the target system's metadata.
In networked systems, Data Lineage forms "a pipe" or "a tree" that shows where the data comes from and in what format it is stored, but no single data element is visible. This could be compared to a water pipe at home, which follows a pipe to a bigger pipe, and finally to a waterworks, where the water draws in from, but still cannot recognize a single drop of water. Yet Data Lineage captures the entire pipeline.
Data Lineage can be viewed from two different directions. From the source system, the pipe looks like "a tree" and shows where every single piece of data is used. This can be used, for example, in change management or in data management. In terms of reporting, Data Lineage shows you which systems that data has come from and the calculation rules used to compile it. This is important for the reliability of the information so that the information is calculated correctly.
By combining Data Lineage with other data, it is also possible to obtain information about who owns, uses and audits that data or where the data is stored. This helps organizations manage information in an informed manner (eg GDPR, Brexit effects, country-specific privacy rules).
Yksinkertaisesti sanottuna metadata on tietoa tiedosta, mutta yhden tuottama metadata on toiselle liiketoiminnan tietoa. Metadata pitää sisällään esimerkiksi tietoa siitä, onko tieto numeraalista vai tekstiä, milloin tieto on luotu tai kuka sen on luonut. Metadataa on selkeimmin esillä tietokannoissa, mutta metadataa voidaan myös kerätä muualta, kuten esimerkiksi ohjelmointikoodista (muuttujat), kuvista tai sosiaalisesta mediasta.
Tiedon virtaus (engl. data flow) on tiedon siirtämistä tietojärjestelmästä toiseen. Tiedon siirrossa yleisimmin käytetty tapa on ETL (engl. Extract, Transform & Load). Tällä tarkoitetaan tiedon siirron jakamista kolmeen osaan: tiedon hakeminen lähdejärjestelmästä, tiedon muokkaaminen ja tiedon lataaminen kohdejärjestelmään.
Data Lineage on tietovirran hallintaa metadatan avulla siten, että lähdejärjestelmän metadata liitetään siirrossa tehtäviin tiedon muokkaussääntöihin ja kohdejärjestelmän tietokannan metadataan.
Verkostoituneissa järjestelmissä Data Lineage muodostaa ”putken” tai ”puun”, josta näkyy mistä järjestelmistä tieto on peräisin ja missä muodossa se on talletettu, mutta yksittäistä tietoelementtiä ei näe. Asiaa voisi verrata kodin vesiputkeen, josta putkea seuraamalla päätyy aina isompaan putkeen, ja lopulta vesilaitokseen, ja sieltä sinne mistä laitos ottaa vetensä. Kuvauksesta ei pystyttäisi tunnistamaan yksittäistä vesipisaraa, mutta pystytään kuvaamaan koko putkisto, mistä se lähtee ja minne kaikkialle se päätyy.
Data Lineage voidaan katsoa kahdesta eri suunnasta. Lähdejärjestelmästä katsoen putki näyttää ”puulta”, ja siitä näkee mihin kaikkialle yksittäistä tietoa käytetään. Tätä voi käyttää hyväkseen esimerkiksi muutoksen hallinnassa tai data-arkkitehtuurisessa tietojen hallinnassa. Raportoinnista katsoen Data Lineage näyttää, mistä järjestelmistä kyseinen arvo on tullut, ja millä laskusäännöillä se on muodostettu. Tämä on tiedon avoimuuden kannalta tärkeää, jotta voidaan todeta, että tieto on laskettu oikein.
Yhdistämällä Data Lineage muuhun tietoon, voidaan myös saavuttaa tietoa siitä, että kuka omistaa, käyttää ja auditoi kyseisen tiedon tai minne tieto on tallennettu. Tämä auttaa organisaatioita hallitsemaan tietoa tietolähtöisesti (esim. GDPR, Brexit vaikutukset, maakohtaiset tietosuojasäännöt.)
Simply put metadata is information about information, but metadata produced by one is critical business information to another. Metadata includes information such as whether the information is numeric or textual, when it was created, or who created it. Metadata is most prominently displayed in databases, but metadata can also be collected elsewhere, such as programming code (variables), images or social media.
Data flow is transferring data from one system to another. The most commonly used method of data transfer is ETL (Extract, Transform & Load). This means dividing the data transfer into three parts: retrieving data from the source system, modifying the data, and uploading the data to the destination system.
Data Lineage is visualizing the data flow by linking the source system's metadata to the data transformation rules, which are performed during the transformation and to the target system's metadata.
In networked systems, Data Lineage forms "a pipe" or "a tree" that shows where the data comes from and in what format it is stored, but no single data element is visible. This could be compared to a water pipe at home, which follows a pipe to a bigger pipe, and finally to a waterworks, where the water draws in from, but still cannot recognize a single drop of water. Yet Data Lineage captures the entire pipeline.
Data Lineage can be viewed from two different directions. From the source system, the pipe looks like "a tree" and shows where every single piece of data is used. This can be used, for example, in change management or in data management. In terms of reporting, Data Lineage shows you which systems that data has come from and the calculation rules used to compile it. This is important for the reliability of the information so that the information is calculated correctly.
By combining Data Lineage with other data, it is also possible to obtain information about who owns, uses and audits that data or where the data is stored. This helps organizations manage information in an informed manner (eg GDPR, Brexit effects, country-specific privacy rules).