Blogi
19.4.2023
Edellisessä artikkelissa kerroin miten nykyaikainen data-alusta mahdollistaa tiedon tehokkaan hyödyntämisen. Nykyaikainen data-alusta on organisaation kulttuurin, toimintatapojen ja erilaisten teknologioiden yhdistelmä.
Data-alustoja voi rakentaa useilla eri työkaluilla mutta tässä artikkelissa keskitytään Microsoftin tarjoamaan Azure-tuoteperheen ratkaisuihin, jotka erityisesti Microsoftia jo käyttäville yrityksille on usein se tietoturvallisin ja kustannustehokkain ratkaisu.
Ennen data-alustan toteuttamista pysähdy miettimään, mitä data-alustalla halutaan saavuttaa ja kartoita nykytilanne:
Millä tavoin dataa tulee prosessoida, jotta se on helposti hyödynnettävissä? Onko se tarpeen vain raportointia varten vai käytetäänkö sitä esimerkiksi myös koneoppimiseen? Entä halutaanko sitä tarjota myös kolmansien osapuolien käyttöön rajapintojen kautta?
Kun visio data-alustasta on kirkas, eli tiedetään mitä dataa täytyy kerätä ja miten sitä täytyy prosessoida ja se on linjassa liiketoiminnan tavoitteiden kanssa, voidaan suunnitella millä tavoin data-alusta toteutetaan ja valita oikeat työkalut parhaan ratkaisun luomiseksi. Näin tuetaan tavoitteita parhaiten ja saavutetaan myös kustannustehokas ratkaisu.
Kun nykytilanne ja visio tavoitteista on selvillä, seuraava vaihe on datan kerääminen eri lähteistä. Lähtödataa voi olla useammassa eri järjestelmässä eri muodoissa, kuten toiminnanohjausjärjestelmissä, tietokannoissa, sovellusrajapintojen takana tai vaikka Excel- tai csv-tiedostoissa. Tiedot tulisi saada kerättyä luotettavasti niin, ettei keräys vaadi suurta ylläpitotyötä ja kaikki data siirtyy luotettavasti ilman että tietoa jää matkalle. Datalähdekohtaisesti suunnitellaan kuinka usein tietoa on päivitettävä, tarvitaanko sitä lähes reaaliaikaisesti vai riittääkö tietojen päivitys esimerkiksi kerran päivässä.
Azuressa toimittaessa de-facto palvelu datan siirtämiseen on Azure Data Factory. Se on skaalautuva, tehokas ja täysin hallittu alusta monimutkaisten ETL- ja ELT-integraatioprojektien luomiseen ja suurten datamassojen käsittelyyn. Azure Data Factory tarjoaa myös valmiita liittymiä lähes sataan eri Microsoftin sekä kolmannen osapuolen palveluun, joiden pohjalta keräysputkea voidaan helposti lähteä toteuttamaan.
Tietolähteistä kerätty data halutaan tuoda kustannustehokkaasti yhteen paikkaan, josta se prosessoidaan hallitusti eteenpäin. Usein raakadata halutaan säilyttää sellaisenaan, jotta alkuperäiseen prosessoimattomaan tietoon on tarvittaessa mahdollista palata.
Koska dataa on yleensä suuria määriä, on tarpeen miettiä tarkoitukseen sopiva tallennusratkaisu. Tähän esimerkiksi Azure Data Lake on erinomainen vaihtoehto. Azure Data Lake on pilvipohjainen tiedon tallennusratkaisu, jonne voidaan tallentaa kaiken muotoista ja kokoista tietoa lähes rajattomasti. Azure Data Lake skaalautuu hyvin ja tiedon säilyttäminen siellä on edullista, minkä vuoksi se soveltuu hyvin tietojen keräyspaikaksi. Kuten Azure Data Factory, myös Azure Data Lake on täysin hallittu palvelu jossa tiedot säilytetään aina salattuina.
Kun lähdedata on tallessa, se täytyy vielä puhdistaa ja yhtenäistää ennen kuin eri lähteistä haettua dataa on mahdollista käyttää yhdessä. Sen lisäksi data on vielä saatettava sellaiseen muotoon, josta sitä on helppo jatkokäyttää, oli kyse sitten raportoinnista, koneoppimisesta tai datan tarjoamisesta kolmansille osapuolille. Esimerkiksi Power BI -raportteja varten data yleensä tallennetaan Kimballin tähtimalliin, jonka pohjalta raporttien luonti on suoraviivaista.
Tiedon prosessoinnin ja tallennuksen työkaluja valitessa huomioitavia asioita ovat
Kun käsiteltävät tietomäärät ovat suuria, soveltuvia työkaluja ovat esimerkiksi Azure Databricks tai Azure Synapse Analytics. Molemmat tarjoavat mahdollisuuksia edistyneeseen datan prosessointiin, visualisointiin ja tukevat myös koneoppimisen rakentamista datan pohjalta. Molemmissa on myös hyvät tietoturvaominaisuudet, kuten datan salaus, pääsynhallinta ja auditointimahdollisuudet.
Databricks on työkalu suurten tietomassojen monipuoliseen ja skaalautuvaan käsittelyyn Apache Spark -laskentaohjelmistoa hyödyntäen. Databricksia käytettäessä tieto voidaan tallentaa Delta Lake -tauluihin, jolloin prosessoidun tiedon tallennuksen kustannukset ovat pienet.
Synapse Analytics puolestaan koostuu useasta yhteen liittyvästä palvelusta. Se sisältää suurille datamäärille optimoidun tietokantapalvelun, pitkälti samat integraatiotoiminnallisuudet kuin Data Factory, mahdollisuudet suurten datamassojen prosessointiin Apache Spark-laskentaohjelmistolla sekä datakyselyiden suorituksen kustannustehokkaasti SQL-kielellä suoraan Data Lakesta, tarjoten yhtenäisen alustan datan keräyksestä sen prosessointiin.
Jotta tietoalustan tuottamaan dataan voidaan luottaa, konepellin alla kaiken on toimittava sujuvasti. Kuitenkin toisinaan jokin keräysputken tarvitsema palvelu saattaa olla hetkellisesti poissa pelistä, lähdedatassa on muutoksia ilman ennakkovaroitusta tai on tapahtunut jotain muuta, joka estää datan keräämisen normaalilla syklillä. Tätä varten tarvitaan automaattisia hälytyksiä, jotka ilmoittavat heti kun jokin ei toimi odotetusti sekä valvontanäkymiä, joista tilanteen voi helposti tarkastaa ja mahdolliset ongelmat havaita.
Esimerkiksi Azure Log Analytics ja Azure Monitor -palvelut tarjoavat hyvät työkalut tietovaraston toiminnan tarkasteluun sekä mahdollisten ongelmien havaitsemiseen ja niistä hälytysten luomiseen.
Infrastruktuurin määritteleminen koodina ja sen julkaiseminen automaattisten julkaisuputkien kautta pienentää virheiden mahdollisuutta verrattuna käsin tehtyyn ylläpitoon. Infrastructure as Code -työkaluilla (IaC), kuten Bicep, muutokset alustaan saadaan aina julkaistua samalla tavalla niin kehitys, testaus kuin tuotantoympäristöihin riippumatta julkaisua tekevästä henkilöstä. Yhdessä versionhallinnan kanssa myös muutoshistoria säilyy tallessa.
Koska data-alusta on niin keskeisessä osassa liiketoiminnan päätöksen tekoa, on sen toimintaa hyvä arvioida säännöllisesti. Uuden teknologian ja uusien työkalujen myötä avautuu uusia mahdollisuuksia datan hyödyntämiselle. Kannattaa siis panostaa jatkuvaan kehittämiseen, jotta data-alustasta saadaan paras mahdollisen hyöty.
Meltlakella olemme toteuttaneet useita tietovarastoja asiakkaillemme. Olemme mielellämme apuna, jos tarvitset apua tietovaraston suunnittelussa tai toteutuksessa.