Azure Data Lake Storage Gen 2 -säilytyskustannusten hallinta palvelutason (access tier) optimoinnin avulla
Eerikäinen, Nina (2024)
Eerikäinen, Nina
2024
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2024051010740
https://urn.fi/URN:NBN:fi:amk-2024051010740
Tiivistelmä
Opinnäytetyö toteutettiin laadullisena tutkimuksena, ja se on yhdistelmä kirjallisuuskatsausta ja itse luotuihin käyttötapauksiin pohjautuvaa empiiristä tutkimusta. Työ käsitteli tiedon säilytyskustannuksia data-analytiikan käyttöön tarkoitetussa Azure Data Lake Storage Gen 2 -tietoaltaassa ja siinä selvitettiin säilytyskustannusten alentamisen mahdollisuuksia etsimällä esimerkinomaisille käyttötapauksille sopivin tiedon säilyttämisen palvelutaso (access tier). Tietoperustassa käytettiin pääosin Microsoftin tuottamaa materiaalia, jota oli luettavissa heidän verkkosivuiltaan tammi-toukokuun 2024 välisenä aikana. Kirjallisuudesta hyödynnettiin myös Azure-sertifiointeihin valmistavaa kurssimateriaalia, erilaisia opaskirjoja, blogitekstejä ja artikkeleita.
Kustannusten arviointi perustui Microsoftin kustannuslaskuriin syötettyihin säilytyskapasiteetin kokoa, tietoihin kohdistuneita luku-operaatioita ja niiden sekä tiedostojen keskimääräistä kokoa kuvaaviin lukuihin. Nämä luvut saatiin selville lokitiedoista Azuren Log Analytics -palvelussa ja tietoaltaaseen talletettujen tietojen tarkastelun mahdollistavassa Azure Storage Explorer -sovelluksessa. Opinnäytetyössä osoitettiin lokitietojen merkitys datan tuntemisen keskeisenä tekijänä, ja mahdollisuus ennustaa tulevaa datan käyttöä tutkimalla menneitä lokimerkintöjä. Tiedostokokojen ja säilytyskapasiteetin arvioinnin yhteydessä esiteltiin binääristen ja metristen tallennustilaa koskevien yksiköiden – kuten tebitavujen ja teratavujen – väliset erot.
Tiedon säilyttämisen palvelutasoja on Azure Data Lake Storage Gen 2 -tietoaltaassa neljä: kuuma, viileä, kylmä ja arkistointiin tarkoitettu palvelutaso. Periaate palvelutasojen hinnoittelussa on se, että kuumalla palvelutasolla säilytystila on kallista ja tiedon käyttö halpaa, kun taas tiedon käytön tuottamat kustannukset kasvavat viileämmille – säilytystilaltaan halvemmille – palvelutasoille siirryttäessä. Käyttötapausten avulla opinnäytetyössä todistettiin tämän periaatteen paikkansapitävyys, ja tarjottiin kuhunkin tapaukseen soveltuvia vinkkejä kustannusten alentamiseen. Esimerkkinä kustannusten alentamiseen liittyvästä ratkaisusta esitettiin Microsoftin tarjoama Azure Lifecycle Management -palvelu, jolla käyttämättömän datan saa automaattisesti siirrettyä edullisemmalle palvelutasolle.
Tietoperustassa ja käyttötapausten läpikäynnin yhteydessä tuotiin esille myös joitakin rajoituksia ja huomioon otettavia seikkoja liittyen tiedon käyttöön ja sen saatavilla olemiseen, minimisäilytysaikaan kullakin palvelutasolla ja tiedon siirrosta palvelutasolta toiselle aiheutuviin kustannuksiin.
Johtopäätöksinä opinnäytetyössä esitetään, että säilytyksen palvelutason optimointi vaatii etukäteissuunnittelua, datan tuntemista ja sen luokittelua kullekin palvelutasolle sopivimpiin kokonaisuuksiin. Huomiota kiinnitetään myös tämän tavoitetilan saavuttamisen käytännön haasteisiin, sekä pilvioperaattorin hinnoittelun monitahoisuuteen.
Kustannusten arviointi perustui Microsoftin kustannuslaskuriin syötettyihin säilytyskapasiteetin kokoa, tietoihin kohdistuneita luku-operaatioita ja niiden sekä tiedostojen keskimääräistä kokoa kuvaaviin lukuihin. Nämä luvut saatiin selville lokitiedoista Azuren Log Analytics -palvelussa ja tietoaltaaseen talletettujen tietojen tarkastelun mahdollistavassa Azure Storage Explorer -sovelluksessa. Opinnäytetyössä osoitettiin lokitietojen merkitys datan tuntemisen keskeisenä tekijänä, ja mahdollisuus ennustaa tulevaa datan käyttöä tutkimalla menneitä lokimerkintöjä. Tiedostokokojen ja säilytyskapasiteetin arvioinnin yhteydessä esiteltiin binääristen ja metristen tallennustilaa koskevien yksiköiden – kuten tebitavujen ja teratavujen – väliset erot.
Tiedon säilyttämisen palvelutasoja on Azure Data Lake Storage Gen 2 -tietoaltaassa neljä: kuuma, viileä, kylmä ja arkistointiin tarkoitettu palvelutaso. Periaate palvelutasojen hinnoittelussa on se, että kuumalla palvelutasolla säilytystila on kallista ja tiedon käyttö halpaa, kun taas tiedon käytön tuottamat kustannukset kasvavat viileämmille – säilytystilaltaan halvemmille – palvelutasoille siirryttäessä. Käyttötapausten avulla opinnäytetyössä todistettiin tämän periaatteen paikkansapitävyys, ja tarjottiin kuhunkin tapaukseen soveltuvia vinkkejä kustannusten alentamiseen. Esimerkkinä kustannusten alentamiseen liittyvästä ratkaisusta esitettiin Microsoftin tarjoama Azure Lifecycle Management -palvelu, jolla käyttämättömän datan saa automaattisesti siirrettyä edullisemmalle palvelutasolle.
Tietoperustassa ja käyttötapausten läpikäynnin yhteydessä tuotiin esille myös joitakin rajoituksia ja huomioon otettavia seikkoja liittyen tiedon käyttöön ja sen saatavilla olemiseen, minimisäilytysaikaan kullakin palvelutasolla ja tiedon siirrosta palvelutasolta toiselle aiheutuviin kustannuksiin.
Johtopäätöksinä opinnäytetyössä esitetään, että säilytyksen palvelutason optimointi vaatii etukäteissuunnittelua, datan tuntemista ja sen luokittelua kullekin palvelutasolle sopivimpiin kokonaisuuksiin. Huomiota kiinnitetään myös tämän tavoitetilan saavuttamisen käytännön haasteisiin, sekä pilvioperaattorin hinnoittelun monitahoisuuteen.