Seitsemän askelta nykyaikaisen data-alustan rakentamiseen Microsoft Azurella

Nykyaikainen data-alusta on joustava, skaalautuva ja tietoturvallinen. Teknisillä ratkaisuilla varmistetaan, että se pystyy tukemaan liiketoimintaa ja kasvamaan liiketoiminnan mukana mukautuen uusiin tarpeisiin. Hyödyntämällä Microsoftin Azure-ratkaisuja datan prosessointi, kerääminen ja tallentaminen on sekä kustannustehokasta että tietoturvallista. Tässä artikkelissa kerron seitsemästä askeleesta, jotka auttavat rakentamaan luotettavan data-alustan.

Edellisessä artikkelissa kerroin miten nykyaikainen data-alusta mahdollistaa tiedon tehokkaan hyödyntämisen. Nykyaikainen data-alusta on organisaation kulttuurin, toimintatapojen ja erilaisten teknologioiden yhdistelmä.  

Data-alustoja voi rakentaa useilla eri työkaluilla mutta tässä artikkelissa keskitytään Microsoftin tarjoamaan Azure-tuoteperheen ratkaisuihin, jotka erityisesti Microsoftia jo käyttäville yrityksille on usein se tietoturvallisin ja kustannustehokkain ratkaisu.

1. Suunnittele ensin mitä data-alustalla halutaan saavuttaa

Ennen data-alustan toteuttamista pysähdy miettimään, mitä data-alustalla halutaan saavuttaa ja kartoita nykytilanne:

  • mitä dataa on olemassa
  • missä muodossa data on
  • mistä tietolähteistä data on saatavilla.  

Millä tavoin dataa tulee prosessoida, jotta se on helposti hyödynnettävissä? Onko se tarpeen vain raportointia varten vai käytetäänkö sitä esimerkiksi myös koneoppimiseen? Entä halutaanko sitä tarjota myös kolmansien osapuolien käyttöön rajapintojen kautta?

Kun visio data-alustasta on kirkas, eli tiedetään mitä dataa täytyy kerätä ja miten sitä täytyy prosessoida ja se on linjassa liiketoiminnan tavoitteiden kanssa, voidaan suunnitella millä tavoin data-alusta toteutetaan ja valita oikeat työkalut parhaan ratkaisun luomiseksi. Näin tuetaan tavoitteita parhaiten ja saavutetaan myös kustannustehokas ratkaisu.

2. Kerää ja siirrä data luotettavasti Azure Data Factorylla

Kun nykytilanne ja visio tavoitteista on selvillä, seuraava vaihe on datan kerääminen eri lähteistä. Lähtödataa voi olla useammassa eri järjestelmässä eri muodoissa, kuten toiminnanohjausjärjestelmissä, tietokannoissa, sovellusrajapintojen takana tai vaikka Excel- tai csv-tiedostoissa. Tiedot tulisi saada kerättyä luotettavasti niin, ettei keräys vaadi suurta ylläpitotyötä ja kaikki data siirtyy luotettavasti ilman että tietoa jää matkalle. Datalähdekohtaisesti suunnitellaan kuinka usein tietoa on päivitettävä, tarvitaanko sitä lähes reaaliaikaisesti vai riittääkö tietojen päivitys esimerkiksi kerran päivässä.  

Azuressa toimittaessa de-facto palvelu datan siirtämiseen on Azure Data Factory. Se on skaalautuva, tehokas ja täysin hallittu alusta monimutkaisten ETL- ja ELT-integraatioprojektien luomiseen ja suurten datamassojen käsittelyyn. Azure Data Factory tarjoaa myös valmiita liittymiä lähes sataan eri Microsoftin sekä kolmannen osapuolen palveluun, joiden pohjalta keräysputkea voidaan helposti lähteä toteuttamaan.

3. Tallenna lähdedata tietoturvallisesti Azure Data Lakeen

Tietolähteistä kerätty data halutaan tuoda kustannustehokkaasti yhteen paikkaan, josta se prosessoidaan hallitusti eteenpäin. Usein raakadata halutaan säilyttää sellaisenaan, jotta alkuperäiseen prosessoimattomaan tietoon on tarvittaessa mahdollista palata.

Koska dataa on yleensä suuria määriä, on tarpeen miettiä tarkoitukseen sopiva tallennusratkaisu. Tähän esimerkiksi Azure Data Lake on erinomainen vaihtoehto.  Azure Data Lake on pilvipohjainen tiedon tallennusratkaisu, jonne voidaan tallentaa kaiken muotoista ja kokoista tietoa lähes rajattomasti. Azure Data Lake skaalautuu hyvin ja tiedon säilyttäminen siellä on edullista, minkä vuoksi se soveltuu hyvin tietojen keräyspaikaksi. Kuten Azure Data Factory, myös Azure Data Lake on täysin hallittu palvelu jossa tiedot säilytetään aina salattuina.

4. Prosessoi tieto helposti käytettävään muotoon Azure Databricksillä tai Synapse Analyticsillä

Kun lähdedata on tallessa, se täytyy vielä puhdistaa ja yhtenäistää ennen kuin eri lähteistä haettua dataa on mahdollista käyttää yhdessä. Sen lisäksi data on vielä saatettava sellaiseen muotoon, josta sitä on helppo jatkokäyttää, oli kyse sitten raportoinnista, koneoppimisesta tai datan tarjoamisesta kolmansille osapuolille. Esimerkiksi Power BI -raportteja varten data yleensä tallennetaan Kimballin tähtimalliin, jonka pohjalta raporttien luonti on suoraviivaista.

Tiedon prosessoinnin ja tallennuksen työkaluja valitessa huomioitavia asioita ovat

  • käsiteltävän tiedon määrä
  • mihin tarkoituksiin tietoa prosessoidaan
  • kuinka nopeasti tieto pitää käsitellä
  • kuinka kauan tietoa pitää säilyttää ja  
  • millaista osaamista valitun työkalun käyttö vaatii.  

Kun käsiteltävät tietomäärät ovat suuria, soveltuvia työkaluja ovat esimerkiksi Azure Databricks tai Azure Synapse Analytics. Molemmat tarjoavat mahdollisuuksia edistyneeseen datan prosessointiin, visualisointiin ja tukevat myös koneoppimisen rakentamista datan pohjalta. Molemmissa on myös hyvät tietoturvaominaisuudet, kuten datan salaus, pääsynhallinta ja auditointimahdollisuudet.

Databricks on työkalu suurten tietomassojen monipuoliseen ja skaalautuvaan käsittelyyn Apache Spark -laskentaohjelmistoa hyödyntäen. Databricksia käytettäessä tieto voidaan tallentaa Delta Lake -tauluihin, jolloin prosessoidun tiedon tallennuksen kustannukset ovat pienet.

Synapse Analytics puolestaan koostuu useasta yhteen liittyvästä palvelusta. Se sisältää suurille datamäärille optimoidun tietokantapalvelun, pitkälti samat integraatiotoiminnallisuudet kuin Data Factory, mahdollisuudet suurten datamassojen prosessointiin Apache Spark-laskentaohjelmistolla sekä datakyselyiden suorituksen kustannustehokkaasti SQL-kielellä suoraan Data Lakesta, tarjoten yhtenäisen alustan datan keräyksestä sen prosessointiin.

5. Älä unohda tietoalustan monitorointia – valjasta Azure Log Analytics tai Azure Monitor vahdiksi

Jotta tietoalustan tuottamaan dataan voidaan luottaa, konepellin alla kaiken on toimittava sujuvasti. Kuitenkin toisinaan jokin keräysputken tarvitsema palvelu saattaa olla hetkellisesti poissa pelistä, lähdedatassa on muutoksia ilman ennakkovaroitusta tai on tapahtunut jotain muuta, joka estää datan keräämisen normaalilla syklillä. Tätä varten tarvitaan automaattisia hälytyksiä, jotka ilmoittavat heti kun jokin ei toimi odotetusti sekä valvontanäkymiä, joista tilanteen voi helposti tarkastaa ja mahdolliset ongelmat havaita.

Esimerkiksi Azure Log Analytics ja Azure Monitor -palvelut tarjoavat hyvät työkalut tietovaraston toiminnan tarkasteluun sekä mahdollisten ongelmien havaitsemiseen ja niistä hälytysten luomiseen.

6. Luo data-alusta Infrastructure-as-code -työkalulla

Infrastruktuurin määritteleminen koodina ja sen julkaiseminen automaattisten julkaisuputkien kautta pienentää virheiden mahdollisuutta verrattuna käsin tehtyyn ylläpitoon. Infrastructure as Code -työkaluilla (IaC), kuten Bicep, muutokset alustaan saadaan aina julkaistua samalla tavalla niin kehitys, testaus kuin tuotantoympäristöihin riippumatta julkaisua tekevästä henkilöstä. Yhdessä versionhallinnan kanssa myös muutoshistoria säilyy tallessa.

7. Hyödynnä uusimman teknologian tarjoamat mahdollisuudet

Koska data-alusta on niin keskeisessä osassa liiketoiminnan päätöksen tekoa, on sen toimintaa hyvä arvioida säännöllisesti. Uuden teknologian ja uusien työkalujen myötä avautuu uusia mahdollisuuksia datan hyödyntämiselle. Kannattaa siis panostaa jatkuvaan kehittämiseen, jotta data-alustasta saadaan paras mahdollisen hyöty.

Meltlakella olemme toteuttaneet useita tietovarastoja asiakkaillemme. Olemme mielellämme apuna, jos tarvitset apua tietovaraston suunnittelussa tai toteutuksessa.