Tekoäly datainsinöörin apuna – käytännön kokemuksia

Kirjoittanut Shubham Keshri

Datainsinöörinä ymmärrän, kuinka työlästä ja aikaa vievää toistuvien tehtävien suorittaminen voi olla. Siksi haluan jakaa joitakin tekoälyyn perustuvia vinkkejä, joilla voit virtaviivaistaa työtapojasi ja lisätä tuottavuuttasi.

Ensimmäinen työkalu, jota suosittelen lämpimästi, on Bing Chat GPT. Se on tekoälypohjainen chatbot, joka auttaa sinua monissa tehtävissä aina yksiköiden muuntamisesta pitkien artikkelien tiivistämiseen. Se on kuin henkilökohtainen avustajasi!

Toinen työkalu, jonka avulla voit säästää aikaa, on GitHub Copilot. Se auttaa sinua kirjoittamaan koodia nopeammin ja tehokkaammin. GitHub Copilot käyttää koneoppimista ehdottaakseen koodinpätkiä ja se suorittaa automaattisesti toistuvia tehtäviä, kuten taulukoiden luomista tai tiedostojen kopioimista paikasta toiseen.

Tekoälyn käyttö Azure Synapse Analyticsin kanssa

Eräässä asiakasprojektissa käytimme Azure Synapse Analyticsia rakentaaksemme tehokkaita dataputkia. Kuten ehkä jo tiedätkin, Azure Synapse ei kuitenkaan anna kirjoittaa koodia suoraan IDE:ssä. Sen sijaan on käytettävä portaalia.

Koodi piti kopioida esimerkiksi Notebookista ja liittää Bing AI:hin. Sama kuin yrittäisi pelata shakkia toinen käsi selän taakse sidottuna! Siksi käytämme tätä menetelmää vain satunnaisesti migraatioiden tekemiseen. Ratkaisu ei ole täydellinen, mutta joskus se toimii.

Koodin kopioiminen ja liittäminen ei ollut hauskaa! Mutta ehkä joku oli huomannut tämän turhan vaiheen: Visual Studion ja Visual Studion koodin kanssa toimivan GitHub Copilotin viimeisimmän päivityksen myötä voit nyt käyttää sisäänrakennettua chat-ominaisuutta samojen tehtävien suorittamiseen ilman, että sinun tarvitsee siirtyä sovelluksesta toiseen.

Tekoälyn käyttö Azure Synapse -työkirjojen kanssa

Seuraavaksi esittelen joitakin konkreettisia esimerkkejä siitä, miten näitä työkaluja voidaan käyttää yhdessä Azure Synapse -työkirjojen kanssa.

Jos työskentelet Synapsen työkirjojen ja Py Sparkin tai Spark SQL:n kanssa, tiedät, kuinka työlästä voi olla kirjoittaa koodia toistuviin tehtäviin, kuten taulukoiden luomiseen tai tiedostojen kopioimiseen paikasta toiseen. Mutta GitHub Copilotin avulla voit helposti automatisoida nämä tehtävät muutamalla näppäinpainalluksella.

Oletetaan esimerkiksi, että haluat luoda uuden taulukon Synapse Analyticsissa PySparkin avulla. Normaalisti tämä vaatisi useita rivejä koodia. Mutta GitHub Copilotin avulla sinun tarvitsee vain kirjoittaa ”create table” ja sen jälkeen taulukon nimi ja kunkin sarakkeen tietotyyppi. Seuraavaksi GitHub Copilot luo koko Py Spark -koodin puolestasi!

Voit myös kopioida Data Lake -tiedostoja paikasta toiseen Synapse Analyticsissa Spark SQL:n avulla. Silloin sinun tarvitsee vain kirjoittaa ”copy data lake files” ja sen jälkeen lähde- ja kohdepolut. GitHub Copilot luo jälleen koko Spark SQL -koodin puolestasi!

Nämä ovat vain muutamia esimerkkejä siitä, miten voit datainsinöörinä lisätä tuottavuuttasi käyttämällä Bing Chat GPT:tä ja GitHub Copilotia Azure Synapse -työkirjojen kanssa. Automatisoimalla toistuvia tehtäviä ja virtaviivaistamalla työtapojasi voit keskittyä siihen, mikä on oikeasti tärkeää: prosessien automatisointiin, tietojen analysointiin ja oivallusten tuottamiseen.

Jos sinulla on kysyttävää tai kommentteja, ota meihin yhteyttä. Muista myös pysyä avoimena uusille työtavoille ja jatka koodaamista!

P.S. Huomasitko, että tämä blogikirjoitus on kirjoitettu tekoälyn avulla?

Ota meihin yhteyttä saadaksesi lisätietoja

Jakaminen on välittämistä – ja kumpikin on tärkeää

Datan käsittelyn työvälineet kehittyvät jatkuvasti. Siksi vankat teknisten projektien hallintataidot ovat alalla tarpeen. Nykyään tietotekniikkaprojekteissa tarvitaan laajaa, ajan tasalla olevaa tieto- ja taitopohjaa, johon kuuluu sekä teknisiä että pehmeitä taitoja.

Olemme huomanneet, että osaamisen jakaminen edistää tehokkaasti henkilöstömme kehittymistä ja asiakkaittemme menestymistä. Tässä blogissa kerromme Etlian käytännöstä tiedon ja kokemusten jakamisessa.

Tehokkaat tiedon jakamisen käytännöt

Jaamme tietämystämme kahden viikon välein. Aiheet valitaan yhdessä, ja aina on tilaa keskustelulle ja väittelylle. Viime aikoina olemme jakaneet kokemuksiamme OpenAI:sta, tietojen poiminnasta SAP:ista sekä Data Fabricin ominaisuuksista. Aiomme myös demota Databricksin dataputkea dbt Cloudilla ja tutustumme syksyn 2023 sessioissa uusimpiin ja kiinnostavimpiin Data Catalog -tarjouksiin, vain muutamia mainitaksemme.

Lisäksi pidämme silmällä tulevia verkkokursseja, toimittajien tapaamisia, keynote-esityksiä ja tapahtumia. Jos niissä on meitä kiinnostavia aiheita, joku Etlian väestä osallistuu ja jakaa tulokset ja kokemuksensa yhteisissä tiedonjakopalavereissamme.

Kokemusten jakaminen tuo lisäarvoa etlialaisille

Tärkeää ei ole vain dataputken kehittäminen ja tekninen osaaminen. Jaamme myös kokemuksia ja käytäntöjä menetelmistä ja ketteristä työskentelytavoista. Viime aikoina olemme jakaneet ajatuksiamme DevOps-johtamisesta, ja joulukuussa 2023 pidämme esityksen ja avoimen keskustelun kokemuksistamme testiautomaation parhaista käytännöistä.

Yhteenvetona voidaan todeta, että tiedon jakaminen on tärkeä osa yritystämme. Järjestelmällinen tiedon jakaminen tukee Career Radar -ohjelmaamme, jossa keskitytään jokaisen etlialaisen yksilölliseen urakehitykseen.

Lue lisää Career Radar -ohjelmasta.

Näin hyödynnämme urakeskusteluja Etliassa

Oletko kyllästynyt perinteisiin kehityskeskusteluihin? Meillä on parempi ratkaisu: urakeskustelumme voimaannuttavat etlialaisia matkalla menestykseen.

Me tunnistamme Etliassa sekä teknologiasertifikaattien että pehmeiden taitojen osaamisen merkityksen yksilöllisten urapolkujen muokkaamisessa. Tässä blogikirjoituksessa syvennymme siihen, miten urakeskusteluissamme keskitytään jokaisen etlialaisen menestymiseen. Tämä on tärkeää yksilöllisen urakehityksen, tiimihenkemme sekä asiakasprojekteissa onnistumisen kannalta.

Yksilöllisten urapolkujen määrittely

Jokaisella etlialaisella on dokumentoitu ”Etlia Career Radar” -urapolku. Urapolkuvalmennus ja -ohjaus on 100-prosenttisen luottamuksellista: se, mitä päätät jakaa ulkopuolisen valmennuksen aikana, jää sinun ja valmentajan väliseksi – ja sinä päätät myös, mitä jaat Etlian tiimin kanssa. Ohjauksen jälkeen sinulla on urapolku, joka on määritelty kahdella tasolla: lähitulevaisuuden tavoitteet vuoden sisällä sekä tavoitteet 5–10 vuoden aikajänteellä.

Toisiaan täydentävät taidot

Teknologian ja tekoälyratkaisujen kehittyessä yhä monipuolisemmiksi ja helppokäyttöisemmiksi pehmeiden taitojen merkitys verrattuna kovaan osaamiseen kasvaa. Meille pehmeät taidot ovat uusia kovia taitoja! Olemme sopineet, että teknisten sertifikaattien suorittaminen ja pehmeiden taitojen opiskelu suunnitellaan toimimaan yhdessä. Pehmeät taidot, kuten asiakassuhteiden hallinta, ketterä projektinhallinta, viestintätaidot ja henkilöstötaidot, ovat keskeisessä asemassa jokaisen etlialaisen työssä.

Olemme ihmisiin keskittyvä yritys. Näin varmistamme, että meillä on kokonaisuutena sekä toisiaan täydentäviä että yhdenmukaisia taitoja, jotta voimme vastata kulloinkin käsillä olevien asiakasprojektien vaatimuksiin.

Strategisten teknisten sertifikaattien valinta

Nykyaikaisen tietovarastoinnin ratkaisuihin liittyy monia kilpailevia teknologioita ja toimittajia. Olemme yhdessä valinneet ne teknologiat, joihin kiinnitämme eniten huomiota ja joihin kohdistamme koulutuspanoksemme. Emme lukkiudu tiettyyn toimittajaan, mutta pidämme silti valikoimamme rajallisena.

Teemme vuosittaisen suunnitelman tarvittavista sertifioinneista, seuraamme edistymistä ja hienosäädämme teknisten sertifiointien tarvetta tarpeen mukaan. Tätä prosessia kutsumme nimellä ”Etlia Team Radar”. Ensimmäinen Team Radar -suunnitelma luotiin yhdessä Barcelonan-matkallamme lokakuussa 2023.

Yhteenvetona voidaan todeta, että Etliassa emme laske vain sertifikaattien määrää, vaan otamme laajemman näkökulman jokaisen ammatilliseen uraan ja uralla etenemisen mahdollisuuksiin.

Lue miten Career Radar -valmennusohjelma auttaa kirkastamaan urasuunnitelmat!

Seuraavassa blogissa kerromme käytännöistämme tiedon jakamisessa, pysy kuulolla!

MS Fabricin testaus ¬ Arvostelu ”Luo raportti automaattisesti” -toiminnosta 

Olemme aiemmin tuottaneet yhden asiantuntijamme avulla merkityksellisen raportin Suomen koronatiedoista. Nyt, kun Microsoftin uusi SaaS-tarjoama nimeltä Fabric on julkaistu, testaamme sen raportointiominaisuutta, jonka on tarkoitus helpottaa tietoanalyytikoiden ja BI-kehittäjien työtä. MS Fabricin sisältämän ”Raportin automaattinen luonti” -ominaisuuden avulla voit luoda tietojoukoista oivalluksia vain yhdellä klikkauksella. Seuraavassa tekstissä vertailemme Fabricin luomia raportteja asiantuntijamme luomaan raporttiin ja arvioimme, vastaako automaattisesti luotu raportti asiantuntijan tuottamaa laatua. 

Fabric’s auto-created report of Finland’s Corona data 

Miten se toimii? 

Fabricin käyttöliittymän kautta voi kätevästi käsitellä tietojaan. Fabricissa on mahdollista luoda tietojoukkoja niistä tiedostoista ja taulukoista, jotka on ladannut OneLakeen. OneLake on vasta kehitetty yhdistetty tietolähde, josta keskustelimme aiemmassa MS Fabricia käsitelleessä blogikirjoituksessa. Valitsemalla haluamansa tietojoukon raportin luomiseen, voi päättää, haluaako rakentaa raportin tyhjästä vai haluaako, että Fabric luo raportin automaattisesti. 

Kun päättää luoda raportin automaattisesti, Fabric valitsee taulukoista ne sarakkeet, jotka se katsoo merkityksellisimmiksi ja luo visualisoinnit heijastamaan tietojen oivalluksia. Se luo tiiviin yhteenveto sivun, jossa näytetään tärkeimmät kohokohdat Fabricin näkemyksen mukaisesti. Lisäksi se kirjoittaa lyhyen tekstin tiivistämään visualisointien oivallukset. Esitettäviä tietoja on mahdollista muuttaa itse, jolloin Fabric luo automaattisesti uusia visualisointeja valitusta datasta. 

Vertailu 

Käyttämällä ”Luo raportti automaattisesti” -ominaisuutta voi helposti rakentaa riittävän hyvän raportin, joka tehokkaasti välittää tärkeimmät oivallukset datasta. Todennäköisesti, on kuitenkin tehtävä hieman töitä valitessa oikeita datoja visualisoitaviksi, koska Fabric ei välttämättä heti valitse oikeita sarakkeita. Raportti, jonka se luo, voi olla riittävän hyvä, jos tarvitsee ainoastaan tarkistaa nopeasti datasta, että mitä tapahtuu. Raportti, jonka se luo, ei kuitenkaan ole visuaalisesti yhtä upea tai informatiivinen kuin asiantuntijan luoma. Lisäksi se tarjoaa vain tiiviin yhteenvedon tiedoista, kun taas ihminen voi luoda usean sivun raportin, joka tarjoaa syvällistä ymmärrystä asiasta. Voit myös muuttaa automaattisesti luodun raportin visualisointityyppiä, mutta se on käytännössä yhtä yksinkertaista kuin rakentaa raportti tyhjästä. Jos haluat luoda esitettävän raportin ”Luo raportti automaattisesti” -ominaisuuden avulla, sinun on laitettava yhtä paljon ajatusta ja vaivaa peliin kuin, jos rakentaisit koko raportin tyhjästä. 

Yhteenvetona voidaan todeta, että tämä ominaisuus on mukava lisä Power BI:hin, koska kuka tahansa voi helposti tarkistaa tiedoista saatavat oivallukset ja tehdä päätöksiä näiden tietojen perusteella. Joka tapauksessa, jos haluat luoda raportin, joka tarjoaa tehokasta tukea esityksellesi, sinun on silti käytettävä aikaa raportin rakentamiseen ja tietojen tärkeimpien näkökohtien korostamiseen. 

Tekoäly analytiikan tulevaisuus

Vaikka automaattisesti luodun raportin laatu ei vielä ole yhtä hienostunut kuin asiantuntijan luoma raportti, on silti vaikuttavaa, miten hyvin se pystyy yhdistämään erilaisia tietotyyppejä ja tuottamaan merkityksellisiä visualisointeja itsenäisesti. Tekoäly- ja koneoppimisteknologiat ovat kehittyneet viime vuosina nopeasti ja datan analysoinnissa niille on oiva käyttömahdollisuus. Ne ovat jo erinomaisia havaitsemaan malleja sekä analysoimaan muuttujien välisiä suhteita ja riippuvuuksia. Uskomme, että ”Luo raportti automaattisesti -ominaisuudella on edelleen parantamisen varaa. Tulevaisuudessa se saattaa pystyä tulkitsemaan ja välittämään informaatiota, joka on piilossa datassa, jopa paremmin kuin kirkkain asiantuntija. 

Tällä hetkellä trendinä näyttää olevan se, että pyrimme hyödyntämään tekoälyä käyttämällä generatiivisia tekoäly kieli malleja luotettavina apureina, jotka tekevät käytännön työn puolestamme. Microsoft on kertonut meille copilot-ominaisuudesta, joka sisältyy Fabric tuotteeseen, mutta se ei ole vielä saatavilla julkisessa esikatselussa olevassa versiossa. He ovat kuitenkin näyttäneet meille, miten copilotin kanssa voi keskustella ja kertoa sille, mitä tietoja haluaa tietää datasta. Se pystyy luomaan mittareita ja SQL-näkymiä. Toki se pystyy luomaan myös visualisointeja, mutta se pystyy vastaamaan myös monimutkaisempiin kysymyksiin. Esimerkiksi se voi näyttää visualisointien avulla syitä sille, miksi jotain on tapahtunut, tai antaa chatin välityksellä ehdotuksia siitä, miten voit parantaa tiettyjä arvoja. Copilotin avulla ainoa asia, joka jää ihmisten tehtäväksi, on tietää, mitä kysyä. Usein nämä kysymykset toistuvat, joten ehkä jossain vaiheessa voimme automatisoida myös tuon tehtävän. 

Microsoft Fabric 

Olette saattaneet huomata hälinän Microsoftin äskettäin ilmoitetusta palvelutarjonnasta nimeltään Microsoft Fabric. Niin olemme mekin! Tässä artikkelissa tutustumme tarkemmin tuotteeseen ja keskustelemme siitä, onko se hypensä veroinen. 

Mitä varten? 

Microsoft on käyttänyt kaksi vuotta integroidakseen datanhallinta tuotteensa yhden alustan varaan. He ovat pyrkineet tekemään niistä saumattomasti yhteensopivia keskenään, jotta tiedon käyttö, analysointi ja hallinta olisi mahdollisimman helppoa ja yksinkertaista. Microsoft halusi myös yhdistää erilaiset tietolähteet yhdeksi kokonaisuudeksi, jotta tiedon saavuttaminen olisi helpompaa. Lisäksi Microsoft Fabric pyrkii tarjoamaan tarvittavat työkalut nykypäivän liiketoiminnan ohjaukseen kaikille, jotka tarvitsevat ainoastaan rajallisesti resursseja sekä, joiden tiedontarve kasvaa eksponentiaalisesti. Kaiken kaikkiaan Microsoft Fabricin tarkoituksena on yhdistää kaikki erilaiset työkalut, joita tarvitaan datan hallintaan ja analysointiin, yhdeksi alustaksi, jossa asiakas voi saumattomasti käsitellä dataa. 

All in One

Microsoft Fabric sisältää kaiken tarvittavan liiketoiminnan datan hallintaan ja prosessointiin, samalla huolehtien sen turvallisesta säilytyksestä. Software as a Service (SaaS) -alustana Microsoft Fabric on helppokäyttöinen ja takaa sovellusten integraation laadun. Fabric mahdollistaa datan tallentamisen yhteen datajärveen, jota kutsutaan nimellä OneLake. Koko organisaatio voi tallentaa kaiken analytiikkadatan yhteen yhdistettyyn datajärveen ilman, että sitä kopioidaan useisiin paikkoihin. Fabric Power BI:n avulla OneLaken dataan pääsee käsiksi suoraan järvelle suunnitellun Direct Lake Mode -tilan avulla, joka pyrkii ratkaisemaan aiempiin Import- ja DirectQuery-tiloihin liittyvät viive- ja nopeusongelmat. 

Muut työkalut Microsoft Fabricissa ovat Azure Data Factory datan integrointiin sekä Synapse Data Engineering, Data Warehousing, Data Science ja Real-Time Analytics. Nämä Microsoftin aiemmin olemassa olleet työkalut auttavat yrityksiä pysymään ajan tasalla datan hallinnan saralla. Näiden sovellusten integraatio tarjoaa vielä enemmän mahdollisuuksia datan hyödyntämiseen. Mukana on myös Power BI liiketoimintatiedon analysointiin. Sen integroiminen muihin Fabricin työkaluihin avaa mielenkiintoisia mahdollisuuksia datan analysointiin. Power BI:n yhdistäminen OneLakeen tekee datan käytöstä ja analysoinnista helppoa ja kätevää. Microsoft on lisännyt jopa copilotin avustamaan datan visualisoinnissa. Fabric tuo tutun BI-työkalun ajan tasalle. 

Kokonaan uutena sovelluksena Microsoft on lisännyt yksinomaan Fabriciin työkalun, joka mahdollistaa yrityksesi asettamaan laukaisimia ja kynnystasoja tiettyjen datan arvojen osalta. Data Activatorilla voit automatisoida toimintoja datan perusteella. Power BI:hin liitetty Data Activator mahdollistaa oivallusten muuttamisen toiminnaksi, sillä toimet voidaan suorittaa automaattisesti, kun jokin datajoukosta saatava arvo ylittää asetetun tason. Microsoft Purview täydentää Microsoft Fabricin auttamalla datan hallinnassa ja suojauksessa. 

Sovellukset työskentelevät yhdessä 

Mutta tuoko olemassa olevien tuotteiden yhdistäminen yhden sateenvarjon alle mitään etuja käyttäjälle? Kyllä, se tekee asioista yksinkertaisempia. Koko tiimi, mukaan lukien Data-insinöörit, Data-tieteilijät ja Data-analyytikot, pystyvät työskentelemään samassa ympäristössä ja voivat keskittyä projektiin eikä eri työkalujen yhteensovittamiseen. Voimme siis päätellä, että nämä Fabriciin integroidut sovellukset ovat arvokkaampia yhdessä, kuin mitä nämä sovellukset olisivat yksinään. 

Fabric käy tällä hetkellä läpi testausvaihetta yksityisessä esikatselussa ja on luonnollista odottaa matkan varrella joitain pieniä haasteita. Kuitenkin, jo tässä varhaisessa vaiheessa palvelun Software-as-a-Service (SaaS) -tarjonta tekee huomattavan vaikutuksen. Katsoen eteenpäin, Fabricin tuleva kehityssuuntaus kätkee sisäänsä suuren potentiaalin. Tämä SaaS-alusta yksinkertaistaisi organisaatioiden datan hallintaa ja säästäisi tilaa ja laskentatehoa. Direct Lake Mode kuulostaa kiinnostavalta, jos lupaus Power BI:n päivitysaikojen pienemisestä voidaan helposti toteuttaa nykyiseen ympäristöön. Suosittelemme pysymään kuulolla, kun pidämme sinut ajan tasalla. 

.