Snowflake AI – Helppo ja nopea ottaa käyttöön tietoturvallisesti

Generatiivinen tekoäly on ollut viime vuosina vahvasti esillä julkisessa keskustelussa. Vaikka perinteistä koneoppimista on hyödynnetty yrityksissä jo pitkään, esimerkiksi ChatGPT:n kaltaisten työkalujen ilmestyminen on tuonut tekoälyn laajemman yleisön saataville. Siinä missä aihe aiemmin puhutti lähinnä siihen vihkiytyneitä, on siitä tullut nyt osa myös laajempaa keskustelua. 

Myös teknologiatoimittajien suuret panostukset generatiiviseen tekoälyyn ovat helpottaneet aiheen lähestymistä yhä laajemmalle yleisölle. Samaan aikaan kehitys on ollut huimaa – lähes päivittäin julkaistaan uutisia uusista ominaisuuksista ja työkaluista. Tämä vauhti voi kuitenkin tehdä kokonaisuuden hahmottamisesta haastavaa niille, jotka vasta tutustuvat aiheeseen tai suunnittelevat tekoälyn hyödyntämistä. On vaikea tietää, mistä aloittaa ja mitä mahdollisuuksia ylipäätään olisi käytettävissä. 

Tässä blogissa käydään läpi Snowflaken Cortex AI -ratkaisua, sen tarjoamia mahdollisuuksia sekä joitakin keskeisiä käyttötapauksia. Tarkoituksena ei ole antaa kattavaa kuvausta kaikista ominaisuuksista, vaan ennemminkin nostaa esiin muutamia mielenkiintoisia toiminnallisuuksia ja tarjota hyvä lähtöpiste tarkempaan syventymiseen. 

Snowflake Cortex AI

Snowflake kutsuu tekoäly- ja koneoppimisisratkaisuaan Cortex AI:ksi. Cortex kuuluu kiinteänä osana Snowflakeen, jolloin sen ominaisuudet ovat suoraan käytettävissä ilman erillisiä asennuksia ja konfigurointeja. Tämä helpottaa käyttöönottoa ja itse käyttöä tarjoamalla: 

  • Saman skaalautuvuuden kuin Snowflake muutenkin, eli sopeutuu niin pienille kuin suurillekin yrityksille.
  • Data säilyy koko ajan Snowflaken sisällä, mikä yksinkertaistaa compliancen ja governancen hallintaa.
  • Käyttöoikeuksien määrittely tapahtuu samalla rooleihin perustuvilla ominaisuuksilla, kuin muutenkin Snowflakessa.
  • Monia Cortexin toiminallisuuksia voidaan käyttää suoraan Snowsight-konsolista ilman erillistä koodausta, mikä helpottaa varsinkin alkuvaiheessa. 
  • Cortex mahdollistaa monia eri tapoja hyödyntää malleja. Cortexissa on useita valmiita malleja eri toimittajilta, joita voi tarvittaessa itse jatkokehittää tai mukaan voi tuoda myös omia malleja.

Valmiit funktiot 

Koneoppisen funktioilla saadaan automatisoitua ennusteiden ja lisätietojen tuottamista. Funktiot on suunniteltu kutsuttavaksi SQLla ja Pythonilla ja niitä voidaan käyttää kiinteänä osana muuta workflowta. Snowflaken AI&ML Studio mahdollistaa funktioiden määrittelyn suoraan myös käyttöliittymästä. Funktiota voidaan käyttää mm. aikasarjoissa, hyödyntäen niitä tietyn arvon ennustamiseen, poikkeamien tunnistamiseen tai luokitteluun. Tällaisia käyttötapauksia voivat olla esimerkiksi: 

  • Kysynnän tai myynnin ennustaminen historiallisen datan perusteella 
  • Poikkeavuuksien tunnistaminen IT-lokeissa tai taloustapahtumissa 
  • Asiakaspalveluun tulevien viestien luokittelu 

LLM funktioita käytetään kirjoitettuun kieleen liittyvissä toimenpiteissä. Funktiot ovat valmiiksi käytettävissä Snowflakessa olevilla malleilla, jolloin käyttöönotto on helppoa ja niitä voidaan kutsua suoraan tai liittämällä jo olemassa oleviin toteutuksiin. Myös nämä funktiot ovat suunniteltu käytettäväksi hyödyntäen SQLlaa tai Pythonia. Funktioita voidaan hyödyntää moninaisissa yhteyksissä, kuten esimerkiksi kielenkäännöksissä, tiivistelmien laatimisessa tai tunnetilan analysoinnissa. Käyttötapauksia LLM funktioiden hyödyntämisessä ovat: 

  • Tarkkojen tietojen haku suurista tekstiaineistoista 
  • Asiakirjojen, raporttien tai artikkeleiden tiivistäminen 
  • Palautteen analysointi positiiviseksi tai negatiiviseksi jatkotoimenpiteitä varten 
  • Usealla eri kielellä olevien tekstien kääntäminen samalle kielelle 

Cortex Analyst


Cortex Analyst puolestaan mahdollistaa ei-teknisille käyttäjille tiedon hakemisen luonnollisella kielellä – ilman SQL-taitoja. Se toimii siltana liiketoiminnan ja datan välillä. Cortex Analystia käytettäessä LLM muuntaa käyttäjän kysymyksen SQL kielelle, jolla haetaan vastaus lähteenä käytettävästä strukturoidusta datasta, kuten esimerkiksi tietovarastosta. Vastauksen yhteydessä saadaan myös selite, kuinka kysymys on ymmärretty sekä SQL-lause, josta selviää mistä tieto haettu. Tämä lisää käyttäjäystävällisyyttä vähentämällä väärinymmärrysten määrää. Vinkit kysymyksen muotoiluun sekä ilmoitukset tilanteissa, joissa vastausta ei voida antaa – vaikkapa puutteellisen datan vuoksi – auttavat käyttäjää toimimaan järjestelmän kanssa tehokkaammin ja luotettavammin. 

Kuten muissakin Cortex AI -ominaisuuksissa, myös Cortex Analyst hyödyntää samoja käyttöoikeusrakenteita kuin muualla Snowflakessa. Tämä mahdollistaa helpon ja yhtenäisen oikeuksien hallinnan. Ominaisuus on käytettävissä ulkopuolisista sovelluksista API-rajapinnan kautta, ja se toimii myös yhdessä Snowflaken sisäisen Streamlitin kanssa, jonka avulla voidaan rakentaa nopeasti interaktiivisia sovelluksia. Cortex Analystin käyttötapauksia ovat esimerkiksi: 

  • Tiedon kysely tarkemmalla tasolla kuin mitä yrityksen perusraportointi tarjoaa 
  • Yksittäisen tiedon hakeminen tietovarastosta tiettyä käyttötapausta varten 
  • Erilaiset ad hoc -datatarpeet, joita ilmenee tietovaraston käytön yhteydessä 

Cortex Search 

Cortex Search -hakupalvelua käytetään tietojen hakemiseen laajoista tietomassoista kirjoitetun tekstin avulla. Se on suunniteltu erityisesti strukturoimattoman datan, kuten dokumenttien, käsittelyyn. Hakutoiminnassa hyödynnetään suuria kielimalleja (LLM) ja RAG-tekniikkaa (Retrieve, Augment, Generate), jolloin haun tuloksena syntyy tarkempia ja kontekstuaalisempia vastauksia. Vastaukset perustuvat aina ennalta määriteltyihin lähteisiin, mikä auttaa minimoimaan hallusinaatioiden riskiä. 

Hakupalvelun käyttöönotto onnistuu joko manuaalisesti tai käyttöliittymän kautta hyödyntäen Snowflake AI/ML Studiota. Yksinkertaisimmillaan hakupalvelun pystytys etenee seuraavasti: 

  • Valitaan käytettävä kielimalli 
  • Määritetään palvelun tallennuspaikka 
  • Osoitetaan, mistä datasta vastaukset haetaan 
  • Määritetään indeksoinnin aikataulu, jotta vastaukset pysyvät ajan tasalla 

Hakupalvelua voidaan käyttää Snowflaken sisällä käyttöliittymäpohjaisella Cortex Playgroundilla tai – kuten Cortex Analystin kohdalla – myös API-rajapinnan kautta tai Streamlitin avulla. Käyttötapauksia ovat esimerkiksi: 

  • Tiedon tarjoaminen kirjoitetun kielen kautta yleisissä käyttötapauksissa 
  • Hakumoottorina toimivat chatbotit, joita voidaan hyödyntää esimerkiksi asiakaspalvelussa 
  • Yrityksen sisäinen hakupalvelu, jonka avulla työntekijät löytävät nopeasti tietoa esimerkiksi matkustus- tai IT-hankintaohjeista 

Document AI


Document AI mahdollistaa tietojen poimimisen yrityksen strukturoimattomasta datasta (esimerkiksi sopimukset, laskut, kuittien kuvat, lomakkeet tai käsin kirjoitetut asiakirjat) ja tallentaa tiedot strukturoituun muotoon tietokantaan jatkokäsittelyä varten. Tällä ominaisuudella saadaan vähennettyä manuaalista työtä, käsittelyaikaa ja inhimillisiä virheitä. 

Tietojen poimimisen prosessi saadaan myös automatisoitua, jolloin poiminta tapahtuu automaattisesti esimerkiksi uuden dokumentin tultua saataville. Poimittuja tietoja voidaan hyödyntää osana jo olemassa olevaa tietovirtaa. 

Palvelu voidaan määritellä suoraan Snowflaken käyttöliittymästä. Määrittelyvaiheessa käyttäjä esittää kysymyksiä halutuista tiedoista, jolloin malli oppii poimimaan olennaisen sisällön dokumenteista. Mallin opettaminen tapahtuu graafisen käyttöliittymän kautta, mikä poistaa teknisen erikoisosaamisen vaatimuksen ja mahdollistaa liiketoimintaosaajien osallistumisen suoraan prosessiin. 

Poimitut tiedot voidaan tallentaa esimerkiksi tietovaraston tauluihin jatkokäyttöä varten tai hyödyntää osana olemassa olevaa workflow’ta. Document AI -ratkaisua voidaan käyttää esimerkiksi: 

  • Käyttötapauksissa, joissa halutaan poimia tietoja dokumenteista strukturoituun muotoon 
  • Dokumenttien tarkistuksen automatisoinnissa, kuten allekirjoitusten olemassaolon tunnistamisessa 
  • Käsin täytettyjen lomakkeiden tietojen poimimisessa helposti hyödynnettävään muotoon 

Huomioita ennen käyttöönottoa 

Snowflake Cortex AI tarjoaa laajan ja kattavan valikoiman valmiita AI/ML-ominaisuuksia liiketoiminnan tueksi. Käyttöönotto on tehty helpoksi monien sisäänrakennettujen työkalujen ja käyttöliittymien ansiosta. On kuitenkin tärkeää huomioida myös muita näkökulmia ennen ratkaisujen viemistä tuotantoon – erityisesti dataan liittyviä. Alla muutamia keskeisiä huomioita: 

  • Käyttötapaukset: Käyttötapausten huolellisella suunnittelulla on keskeinen rooli. Mitä ongelmaa ollaan ratkaisemassa? Mikä on tavoiteltu lopputulos? Mitkä ovat sen vaikutukset, hyödyt ja liiketoiminnalliset tavoitteet? 
  • Data-arkkitehtuuri: Tukeeko nykyinen data-arkkitehtuuri AI/ML-ratkaisujen käyttöönottoa? Kuinka pitkälle voidaan hyödyntää olemassa olevia rakenteita? Tarvitaanko muutoksia, jotta arkkitehtuuri tukee tekoälyn ja koneoppimisen tarpeita? Ideaalisti AI/ML on yksi datan hyödyntäjistä ja tuottajista muiden joukossa. 
  • Datan ja sen laatu: Onko tarvittava data jo olemassa tai hankittavissa käyttötapaukseen? Mikä on datan nykyinen laatu? Tarvitaanko toimenpiteitä, jotta data täyttää laatuvaatimukset? Laadukas data on onnistuneen tekoälyratkaisun perusta. 
  • AI on yhtä hyvä kuin datasi! 

-Asko Ovaska 

Etlia on toteuttamassa useita Snowflake-ratkaisuja eri asiakkaille – mikäli kiinnostuit tai haluat kuulla lisää, ota rohkeasti yhteyttä!

Reliable sustainability information remains crucial, omnibus or not

The Importance of Reliable Sustainability Information


Don’t be mistaken, whether corporate sustainability reporting is mandatory now or later (some of the CSRD requirements may be postponed by the recent European Commission’s Omnibus package proposal), strategic sustainability areas constitute priorities.

For the ones of you fluent in CSRDish, the Esperanto of the sustainability professionals community, we are talking about the “metrics related to material sustainability matters”.

There is an indisputable need for reliable information on the sustainability performance, regardless of the level of integration of sustainability in companies and the reporting requirements in force. Responsible data-driven decision-makers demand information they can trust.

Challenges in Sustainability Reporting

As a sustainability dinosaur and an ex-PwC Sustainability Reporting Assurance manager I happen to have a few hints on what it takes to build trust in sustainability information, here are some!

Let’s play a little game together, shall we? Go through the few situations below where people are using information on a company’s sustainability performance and ask yourself whether it matters that the information is accurate. Keep count.

  • You are looking at the energy intensity performance of the past year on your company’s intranet’s report to determine whether all employees will receive a bonus as planned by the incentive programme of your company
  • A potential client visits your factory and asks you about the number of days with zero work accidents presented on the shop floor’s dashboard
  • You were asked by the top management to propose ambitious but realistic short-term GHG emissions scope 3 reduction targets, you look at the past 5 years performance published in the company’s voluntary sustainability report
  • A retailer, who is a strategic client to your company has set new procurement requirements and you have just a few weeks to provide evidence that the materials used in the packaging of your products are sustainably sourced.

How many did you get? And most important, did you know whom to turn to find out? Did you have any doubts about the calculation methods, the data quality or the results altogether? How would you make sure the data is up to date?

Behind all the situations above, there is a reporting process be it explicit or not. Therefore, solutions look pretty much the same for sustainability reporting than for others and assurance procedures follow the same standards too. But there is just this little twist more, that makes it so much more fun to play around with: a multitude of calculation methods, sources of raw data, the use of estimates and the fact that there is a relatively short history of mandatory assurance.

Ensuring Data Quality and Streamlining the Reporting Process

Here are some tips to get your pulse down and a confident smile back on your face:

  • Data quality: establish procedures to ensure robust data is used.
    • Remember the S*-in-S*-out principle? Find out what your KPIs are built upon, where the raw data are originating from and whether you can tell for any given KPI, what set of data was used.
      • Draw the flow of information, this will probably look like a very large family-tree if you are dealing with GHG emissions scope 3 data!
    • Manual manipulation is sadly still common practice (someone looks up the value from a screen, writes it on a piece of paper and types the figure into a worksheet’s cell or a second person types values into the body of an e-mail that is sent to a person who also uses manual input methods), things can go wrong at each and every turn and if you repeat this over a few thousands of figures…
      • Seriously consider automating your reporting process. To find out more, reach out to professionals with proven-track records of ESG automation such as Etlia
    • Find out what assumptions are made, are the figures based on estimates, are they based on measured or calculated information, what calculation methods are used. Was it hard to check this bit?
      • Implement a well-documented, well-maintained and user-friendly reporting process
  • Shake your reporting process’s tree (I know I keep talking about trees, bear with me…) and find out how robust it is:
    • double-check, re-calculate
    • walk-through the process, try and follow the trail all the way up to the raw data
    • use sensitive analysis tools,
    • meet the people involved in reporting, are they aware of the role they play? do they know what the information they process is used for and by whom?
  • Motivate your reporting team:
    • engage people affecting the quality of your information, explain how valuable their contribution is and listen to what they can teach you on reporting, they know their stuff!
    • clean it up: make sure sources of errors are addressed and no one is blamed for them, it is a collaborative effort
    • celebrate, there is no such thing as a small victory! Make improvements every time they count. Don’t wait for the big solution to solve all your problems. Tools do not create a reporting process, they only facilitate it.
    • sometimes it can be hard to give up on old ways of doing things, ask your quality colleagues or your change management gurus for tips
    • lean your reporting process: aim at a smooth, tidy, efficient and quality data producing process!

Etlia and Luotsi Yritysvastuupalvelut

Combining the expertise of the Etlia data engineer expertise and Luotsi’s deep understanding in sustainability reporting requirements and processes these companies provide together a robust framework and solution for organizations to navigate the complexities of sustainability reporting and make informed, data-driven decisions.

If you need more information, please contact adeline@yritysvastuupalvelut.fi or fill the contact form on our website.

– Adeline Maijala, CEO, Luotsi Yritysvastuupalvelut Oy – Etlia’s Co-Champion

Datasta arvoa – mitä datatuotteen tuoteomistajan tulisi ottaa huomioon?

Tuoteomistajuuden yhteydessä puhutaan usein siitä, miten datalla tulisi johtaa ja ohjata tuotekehitystä. Itse olen kuitenkin ollut usein rooleissa, joissa data itsessään on se tuote, jota kehitetään. Millaista datatuotteen omistajuus käytännössä on?  

Keräsin muutamia ajatuksia tärkeimmistä näkökulmista. Kirjoitus pohjautuu esitykseen, jonka pidin 12.3.2025 Tulevaisuuden tuoteomistaja -tapahtumassa datatuotteen tuoteomistajuudesta.

Mikä on datatuote?

Datatuote on rakenteellinen kokonaisuus, joka tarjoaa organisaatiolle arvoa esimerkiksi raportoinnin, analytiikan tai operatiivisen toiminnan tukena. Se voi olla dataan pohjautuva palvelu, tietovarasto tai esimerkiksi API, joka mahdollistaa datan hyödyntämisen eri käyttäjäryhmille. 

Jos ja paremminkin kun datasta halutaan arvoa liiketoiminnan ja päätöksenteon tueksi, keskeinen kysymys kuuluu: kuka käyttää dataa ja miten?

Datatuotteen suunnittelussa ja kehittämisessä on tärkeää ymmärtää, millaisia käyttäjäryhmiä on olemassa ja millaista osaamista heillä on. Tällaisia ryhmiä voivat olla esimerkiksi: 

  • Itseohjautuvat analyytikot, kehittäjät ja datatieteilijät, jotka käsittelevät raakadataa ja tekevät siitä johtopäätöksiä. 
  • Tietojohtajat ja liiketoimintapäättäjät, jotka tarvitsevat visualisoitua ja aggregoitua dataa päätöksentekoon. 
  • Loppukäyttäjät, jotka hyödyntävät dataa mutta tarvitsevat tukea sen tulkinnassa ja käytössä. 

Jotta datatuotteen arvo maksimoituu, on tärkeää tarjota oikeanlaisia palveluita eri käyttäjäryhmille – oli kyse sitten API-rajapinnoista, raportoinnista tai räätälöidystä dataneuvonnasta.

Datatuotteen tuoteomistajan rooli

Tuoteomistajuus on tuttu konsepti ohjelmistokehityksestä, mutta datatuotteiden kohdalla rooli saa erityisiä painotuksia. Dataosaaminen on ehdoton etu tuoteomistajalle, sillä ilman sitä on vaikea arvioida, millaiset ratkaisut ovat toisaalta teknisesti kestäviä, mutta toisaalta palvelevat mielekkäästi liiketoimintaa. 

Menestyvä datatuotteen tuoteomistaja: 

  • Ymmärtää datalähteet ja ekosysteemit – mistä data tulee, miten sitä käsitellään ja missä sitä hyödynnetään. 
  • Hallitsee sidosryhmätyön, sillä datatuotteen ympärillä toimii laaja joukko käyttäjiä ja asiantuntijoita ja riippuvuuksia eri järjestelmiin ja liiketoimintoihin on yleensä paljon. 
  • Osaa priorisoida kehitystä liiketoiminnan tarpeiden mukaan, jotta datasta saadaan maksimaalinen hyöty. 

Sidosryhmien yhteistyö ratkaisee

Datatuotteen kehitys ei tapahdu tyhjiössä. Se vaatii tiivistä yhteistyötä niin liiketoiminnan, IT-tiimien kuin loppukäyttäjienkin välillä. Tuoteomistajan tehtävä on tasapainottaa eri odotuksia ja varmistaa, että datatuote palvelee aidosti käyttäjiään. 

Eri toimialoilla datatuotteilla voi olla monenlaisia rooleja – ne voivat esimerkiksi tukea sääntelyvaatimuksia, mahdollistaa asiakasymmärryksen syventämistä tai tehostaa päätöksentekoa. Datatuotteen arvo syntyy siitä, kuinka hyvin se pystyy tarjoamaan tietoa eri käyttäjäryhmille sopivassa muodossa ja auttamaan heitä hyödyntämään sitä omassa työssään.

Miten eteenpäin?

Etlialla autamme asiakkaitamme rakentamaan toimivia, skaalautuvia ja käyttäjälähtöisiä datatuotteita eri ohjelmistoilla. Näissä hankkeissa olemme nähneet, kuinka oikealla omistajuudella ja selkeällä kehitysstrategialla data voidaan valjastaa voimavaraksi, joka tukee sekä operatiivista toimintaa kaikilla tasoilla että strategista päätöksentekoa ylimmässä johdossa. 

Jos haluat keskustella lisää siitä, miten organisaatiosi voisi hyödyntää dataa paremmin, ole rohkeasti yhteydessä!

Eevi Lappalainen, Senior Data Consultant

SAP and Databricks partner up—What’s in it for You?

Exploring the Future of Data Engineering with SAP Business Data Cloud

In today’s rapidly evolving digital landscape, businesses are constantly seeking innovative solutions to enhance their data management and analytics capabilities. On February 13, 2025, SAP launched the Business Data Cloud (BDC), a new Software-as-a-Service (SaaS) product designed to provide a unified platform for data and AI. According to SAP BDC is a comprehensive platform revolutionizing the way organizations handle data and artificial intelligence (AI) applications. In this blog post, I will delve into the key highlights of SAP Business Data Cloud and its collaboration with Databricks.

Introduction to SAP Business Data Cloud

SAP BDC combines several powerful components, including Datasphere, SAP Analytics Cloud (SAC), SAP BW, Databricks, and Joule (AI), to offer a comprehensive solution for data and AI needs. This integration offers AI capabilities, data management, and application support, making it ideal for businesses looking to fully utilize their data.

Key Features of SAP Business Data Cloud

The SAP Business Data Cloud is built to address a wide range of data and AI requirements. Some of its key features include:

  1. Comprehensive Data and AI Platform: BDC integrates various SAP and third-party data sources, providing a seamless flow from raw data to insightful analytics and AI applications. 
  1. Insight Apps: These ready-made SaaS products offer out-of-the-box solutions for data and AI needs, enabling businesses to quickly deploy and benefit from advanced analytics. 
  1. Custom Build Scenarios: BDC supports custom solutions, allowing organizations to combine SAP and third-party data to create tailored analytics and AI applications. It is also possible to copy Insight Apps components and to enhance copied functionalities with custom development.

The Role of SAP Databricks

A key feature of BDC is its integration with SAP Databricks. This collaboration brings Databricks’ powerful AI and machine learning (ML) functionalities to the SAP ecosystem, enabling businesses to leverage advanced analytics and AI capabilities within a single platform.

Benefits and Considerations for SAP BDC

The SAP Business Data Cloud offers several advantages that make it a compelling choice for businesses:

  1. Single SaaS Platform for Analytics, AI, and ML: BDC provides a unified platform that integrates various SAP and third-party data sources, enabling seamless data management and advanced analytics. 
  1. SAP Databricks AI/ML Functionalities: The integration with Databricks brings powerful AI and machine learning capabilities to the SAP ecosystem, enhancing the platform’s analytical capabilities. 
  1. Insights Apps: BDC includes ready-made SaaS products that offer out-of-the-box solutions for data and AI use cases, allowing businesses to quickly deploy and benefit from advanced analytics. 
  1. Tight Integration to Business Processes: BDC is designed to integrate seamlessly with existing business processes, ensuring that data analysis and AI applications are closely aligned with SAP business processes. 

While the SAP Business Data Cloud offers numerous benefits, there are a few considerations to keep in mind:

  1. A New Product – What is the maturity?: As a new product, businesses should evaluate the maturity of BDC for their respective use cases and consider any potential challenges during the implementation phase. 
  1. SAP Joule dependency how to integrate into your overall architecture? Joule is yet another co-pilot AI interface to your stack. You have to make sure that for each use case there is well thought through user experience either through Joule or some other co-pilot integrating with Joule that is in line with your overall architecture e.g. MS co-pilot.  
  1. All in SAP or Use Both SAP BDC and Other Non-SAP Tools?: Organizations should still consider whether it makes sense to fully commit to the SAP ecosystem or to use a combination of SAP BDC and other non-SAP tools to meet their data and AI needs.

What to expect?

The SAP Business Data Cloud represents a significant leap forward in the realm of data engineering and AI. By combining the strengths of SAP’s data management tools with Databricks’ AI/ML capabilities, BDC offers a platform for businesses to enhance their data analytics and AI applications. As organizations continue to navigate the complexities of the digital age, solutions like BDC will play a crucial role in driving innovation and success. 

Juuso Maijala, CEO & Founder

At Etlia Data Engineering we have a unique combination of expertise in both SAP and Databricks to support your business AI transformation. Want to know more? Book a meeting with us and let’s talk about how we can help your business to leverage SAP Business Data Cloud with Databricks!

Data Engineer – Databricks

Etlia is a fast-growing data engineering company and a technical forerunner, empowering customers to generate business value from data by utilizing major business process platforms and other data sources. With ambitious growth targets, we’re now seeking experienced Senior Data Consultants and Senior Data Engineers with Databricks expertise to join our team and support us on this journey.

Your role: 

You’ll work a variety of customer projects where your mission is to deliver tailored, comprehensive solutions that meet client’s unique needs. While your final responsibilities will align with your core competencies and interests, you’ll work both independently and collaboratively with clients and other stakeholders to ensure project success.

You’ll assist customers with business-critical decisions by collecting, integrating, and storing data, which will be visualized in accessible, insightful reports. Projects are often long-term, ranging from a quarter to several years, and utilize modern technologies like Databricks, Azure, AWS, Snowflake, Matillion, Informatica, dbt, Power BI, SAP, and more.

What Etlia offers:

  • Diverse roles in a fast-growing, financially stable company 
  • Skilled and supportive colleagues with extensive IT project experience both locally and internationally 
  • An inclusive work environment with modern office facilities in Keilaniemi, Espoo 
  • Engaging client projects and cutting-edge technology 
  • Opportunities for personal and career development through the Etlia Career and Training Path 
  • Competitive salary, bonus structure, and employee share and partner programs 
  • Flexible working hours and a hybrid work model 
  • Range of benefits and perks such as extensive health and accident insurance, lunch, sports, culture, and bike benefits

We hope you bring:

  • Experience working with data and good understanding of the data concepts e.g. data warehouse, BI, ETL and data lakes 
  • Expertise in Databricks architecture and development 
  • Consulting experience and willingness to work in the customer interface 
  • Proactive and independent working style 
  • Excellent communication and teamwork skills 
  • Full working proficiency in English

Additional assets:

  • Knowledge of some of the following technologies: Azure, AWS, GCP, Snowflake, Matillion, Informatica, dbt, Power BI, SQL, Python, SAP BTP etc. 
  • Previous experience in data consulting 
  • Finnish language skills

Etlia is committed to fostering a diverse and inclusive workplace and warmly welcomes applicants of all backgrounds, ages, and perspectives. Applicants must have a valid work permit for Finland.

Interested? Submit your CV in PDF format or share your LinkedIn profile and an optional cover letter by email. Please include your salary expectations and preferred start date. For questions regarding the position or recruitment process, please contact our Marketing & Office Coordinator, Dina Pynssi (+358405256414).

Hands-on Data Governance Expert

Etlia is a fast-growing data engineering company and a technical forerunner, empowering customers to generate business value from data by utilizing major business process platforms and other data sources. With ambitious growth targets, we’re now seeking experienced hands-on Data Governance Experts to join our team and support us on this journey.

Your role: 

You’ll work a variety of customer projects where your mission is to deliver tailored, comprehensive solutions that meet each client’s unique needs. While your final responsibilities will align with your core competencies and interests, you’ll work both independently and collaboratively with clients and other stakeholders to ensure project success.

You’ll assist customers with business-critical decisions by developing and implementing robust data governance frameworks. You’ll help clients manage their data assets efficiently by addressing challenges related to data quality, metadata, compliance, and security. Projects are often long-term, ranging from a quarter to several years, and utilize modern technologies.

What we’re looking for: 

If you have substantial experience in data fields such as data governance, data engineering, or project management, you may be the talent we’re looking for! Alongside technical skills, we value a customer-focused mindset and strong interpersonal abilities. Familiarity with managing customer projects and effective communication skills are essential, as is an analytical, proactive working style.

What Etlia offers: 

  • Diverse roles in a fast-growing, financially stable company 
  • Skilled and supportive colleagues with extensive IT project experience both locally and internationally 
  • An inclusive work environment with modern office facilities in Keilaniemi, Espoo 
  • Engaging client projects and cutting-edge technology 
  • Opportunities for personal and career development through the Etlia Career and Training Path
  • Competitive salary, bonus structure, and employee share and partner programs 
  • Flexible working hours and a hybrid work model 
  • Range of benefits and perks such as extensive health and accident insurance, lunch, sports, culture, and bike benefits

We hope you bring:

  • Experience working with data and good understanding of the data concepts e.g. data governance, data quality, metadata, and compliance frameworks 
  • Hands-on expertise with data governance tools such as Informatica, Profisee, Collibra, or similar platforms 
  • Consulting experience and willingness to work in the customer interface 
  • Proactive and independent working style 
  • Excellent communication and teamwork skills 
  • Full working proficiency in English

Additional assets:

  • Knowledge of some of the following technologies: Azure, AWS, GCP, Snowflake, Matillion, Informatica, dbt, Power BI, SQL, Python, SAP BTP etc. 
  • Previous experience in data consulting Finnish language skills 

Etlia is committed to fostering a diverse and inclusive workplace and warmly welcomes applicants of all backgrounds, ages, and perspectives. Applicants must have a valid work permit for Finland.

Interested? Submit your CV in PDF format or share your LinkedIn profile and an optional cover letter by email. Please include your salary expectations and preferred start date. For questions regarding the position or recruitment process, please contact our Marketing & Office Coordinator, Dina Pynssi (+358405256414).

Business AI Data Engineer

Etlia is a fast-growing data engineering company and a technical forerunner, empowering customers to generate business value from data by utilizing major business process platforms and other data sources. With ambitious growth targets, we’re now seeking experienced Business AI Data Engineers to join our team and support us on this journey.

Your role: 

You’ll work a variety of customer projects where your mission is to deliver tailored, comprehensive solutions that meet client’s unique needs. While your final responsibilities will align with your core competencies and interests, you’ll work both independently and collaboratively with clients and other stakeholders to ensure project success. 

You’ll assist customers with business-critical decisions by collecting, integrating, and storing data, which will be visualized in accessible, insightful reports. Projects are often long-term assignments – from a quarter to several years. You are utilizing modern technologies like Azure, AWS, Databricks, Snowflake, Matillion, Informatica, dbt, Power BI, SAP, and more.

What we’re looking for: 

If you have substantial experience in data engineering, data architecture, BI-reporting, or project management, you may be the talent we’re looking for! Alongside technical skills, we value a customer-focused mindset and strong interpersonal cababilities. Familiarity with managing customer projects and effective communication skills are essential, as is an analytical, proactive working style. 

What Etlia offers: 

  • Diverse roles in a fast-growing, financially stable company 
  • Skilled and supportive colleagues with extensive IT project experience both locally and internationally 
  • An inclusive work environment with modern office facilities in Keilaniemi, Espoo 
  • Engaging client projects and cutting-edge technology 
  • Opportunities for personal and career development through the Etlia Career and Training Path 
  • Competitive salary, bonus structure, and employee share and partner programs 
  • Flexible working hours and a hybrid work model
  • Range of benefits and perks such as extensive health and accident insurance, lunch, sports, culture, and bike benefits

We hope you bring:

  • Experience working with data and good understanding of the data concepts e.g. data warehouse, BI, ETL and data lakes 
  • Proficiency in building data pipelines for AI and machine learning use cases 
  • Consulting experience and willingness to work in the customer interface 
  • Proactive and independent working style 
  • Excellent communication and teamwork skills 
  • Full working proficiency in English 

Additional assets: 

  • Knowledge of some of the following technologies: Azure, AWS, GCP, Databricks, Snowflake, Matillion, Informatica, dbt, Power BI, SQL, Python, SAP BTP etc. 
  • Previous experience in data consulting 
  • Finnish language skills 

Etlia is committed to fostering a diverse and inclusive workplace and warmly welcomes applicants of all backgrounds, ages, and perspectives. Applicants must have a valid work permit for Finland.

Interested? Submit your CV in PDF format or share your LinkedIn profile and an optional cover letter by email. Please include your salary expectations and preferred start date. For questions regarding the position or recruitment process, please contact our Marketing & Office Coordinator, Dina Pynssi (+358405256414).

1X2 betting on SAP S/4HANA analytics scenarios: How to make the right choice?

With the ongoing wave of SAP S/4HANA implementations, many organizations are rethinking their data and analytics portfolios. At Etlia Data Engineering, we frequently help businesses navigate these decisions. When it comes to analytics with SAP S/4HANA, the choices often resemble a 1X2 football bet. Here’s a short practical breakdown of the choices:

1: All-in on SAP (Pure SAP)

Choosing ”1” means relying entirely on SAP’s built-in tools like Datasphere and SAP Analytics Cloud (SAC).

Pros: 

– Seamless integration across SAP systems with optimized performance 
– Real-time insights and SAP’s own functionalities (e.g. AI applications and planning) tied to business processes 
– Simplified vendor management with a single tech stack 

Cons: 

– Limited flexibility 
– Dependence on SAP’s offering and innovation timeline 
– Scarcity of SAP analytics experts 

This option is ideal for businesses prioritizing simplicity and full integration with SAP ERP.

X: The hybrid play 

The ”X” approach combines SAP tools with external platforms like Azure and Databricks, blending the best of both worlds. 

Pros: 

– Flexibility and scalability 
– Access to advanced AI and machine learning capabilities 
– Retains some SAP-native advantages 

Cons: 

– Risk of data silos and duplication 
– Complex governance and skill requirements 
– Higher operational complexity and TCO 

This hybrid model works best for organizations seeking flexibility while maintaining ties to SAP ERP. This is the most complex scenario with the highest total cost of ownership (TCO), so it’s essential to carefully assess the business case to justify the additional investment. Be sure to identify the specific reasons and value drivers that make this approach the right choice for your organization. 

 2: External Data Tools and Platforms (Non-SAP) 

Selecting ”2” involves moving all analytics to external platforms such as Azure, AWS, Snowflake, or Databricks

Pros: 

– Unmatched scalability, flexibility, and customization 
– Wide support for cutting-edge tools 
– Independence from SAP’s constraints 

Cons: 

– Greater difficulty integrating with SAP ERP 
– Higher management overhead for cross-platform data 
– Dependence on non-SAP experts 

This option suits organizations focused on top-tier analytics and innovation, even if it means operating outside the SAP ecosystem.

Key considerations for your analytics strategy on top of S/4 HANA 

1. Align analytics to business needs

– If seamless process integration and simplicity are priorities, SAP-native solutions are a strong starting point. 
– For advanced analytics or scalability, consider hybrid or external approaches. 

2. Evaluate SAP’s analytics offering  

For organizations already committed to SAP S/4HANA, it’s logical to start with SAP’s integrated tools like Datasphere and SAC. SAP is also investing heavily in developing advanced business AI capabilities that integrate seamlessly with SAP’s own tech stack. SAP data solutions are designed to function together with S/4HANA simplifying deployment and accelerating ROI.  

3. Don’t overlook Best-of-Breed solutions 

While SAP’s analytics tools are rapidly maturing, platforms like Microsoft (Azure, Fabric), AWS, Databricks, and Snowflake may provide more advanced AI and ML capabilities. Ensure you have a robust approach for any SAP data extraction e.g. by using SAP Datasphere and be aware of potential challenges and limitations when integrating non-SAP solutions with S/4HANA such as restricted external data extraction (e.g. SAP Note 3255746).  

The winning strategy for SAP S/4HANA analytics 

The choice between SAP-native, hybrid, and external solutions depends on your organization’s infrastructure, data strategy, and goals. Start by evaluating SAP’s analytics tools, as they’re optimized for S/4HANA. For advanced functionality or flexibility, explore hybrid or non-SAP options. 

Stay tuned for upcoming blogs, where we’ll dive deeper into each scenario to help you make informed decisions.

 Interested in learning more or discussing your specific needs? Book a meeting with us today! 

Supercharge your ESG data 

Why automate your ESG data pipeline and how to do it?

While requirements for ESG reporting for businesses are tightening many organizations are still struggling with inefficient manual reporting processes that compromise the quality and assurance-readiness of ESG reporting.

It is not always easy to find actual data for ESG KPIs – hence manual data input and calculation logic based on e.g. emission factors, averages and standard rules will be reality for some parts of ESG reporting also in the near future.  

Based on our experience, organizations can improve their reporting process significantly by gradually automating ESG data pipelines wherever possible – this brings immediate benefits by improving the efficiency of the reporting process as well as allowing better accuracy of your ESG reports and transparency into underlying data. 
 
At Etlia Data Engineering we have successfully implemented automated ESG data pipelines for our clients and in this blog, we dissect our key learning points based on our experiences. 

Why consider automating your ESG data pipeline? 

Main benefits our customers have achieved by automating their ESG data pipeline: 

  • Transparency and assurance-readiness: Automating data pipeline from operative systems helps ensure ESG reports comply with regulatory requirements and provide audit trails for accountability and transparency. 
  • Cost optimization: Reducing the need for manual entry of ESG data, for example using Excel files lowers labor costs and minimizes the cost impact of errors and delays. 
  • More up-to-date ESG reports: Automation significantly reduces the time required to gather, process, and update data, enabling real-time or near-real-time reports allowing management to take action faster than with manual process. 
  • Superior data quality: Automated ESG data pipeline is remarkably less error-prone compared to manual processes.  
  • Scalability: An automated ESG data pipeline can scale-up and handle increasing volumes of data as the company grows, unlike manual processes that struggle to scale efficiently. 

What are the biggest challenges? 

The most common hurdles our clients are facing when building ESG data solutions: 

  1. Inaccuracy and lack of transparency: In the worst-case manual data processes and calculations will cause your ESG reporting assurance to fail solution: Try to automate your ESG data pipeline whenever possible in order to ensure transparency and audit trails.  
  1. Complexity of data: ESG data is usually stored in business process solutions that have been optimized for running daily operations instead of ESG reporting ➤ solution: find skilled enough partners who can help design, model and implement data architecture for ESG reporting.  
  1. Internal data gaps: It is often difficult to find all the data needed e.g. for preparing a comprehensive emissions calculation ➤ solution: use designated ESG specific solutions or approved industry practices to complement your calculation process.  
  1. Dependency on data provided by suppliers: Usually you need to get some data from your suppliers and often this becomes an issue when preparing ESG reporting ➤ solution: try to get the necessary data from your suppliers if possible. Sometimes a more viable solution is to use industry standard calculation rules or data ecosystems in order to fill in the gaps.  
  1. Knowledge issues: internal politics and siloes can hinder finding an optimal solution if the stakeholders do not have needed understanding of the ESG requirements or interlinked data architectures ➤ solution: make sure to train your internal experts and to take care of internal knowledge sharing.  
  1. ESG reporting solution not aligned with overall data strategy and architecture: This can happen for example in case the team in charge of ESG reporting is building their own solutions in isolation ➤ solution: tight coordination between ESG organization and business IT data solution owners/architects.  

How to do it? 

These are our recommended steps to automate your ESG data pipeline 

  • Get started: The sooner you start building automated data flow from operative systems the better it will be for managing the overall roadmap, as it will take time and substantial investments. It is best to get started and move away from manual processes gradually. 
  • Build your understanding: Understanding of the KPIs and ESG reporting requirements such as EU CSRD is crucial, as they help to define the data needed to build the ESG pipeline.  
  • Define targets: Define stakeholders’ targets and roadmap for your ESG reporting development.  
  • Assess your data and data sources: First, define the data you can get from internal sources and whether there is a need for external data. A good example in the case of the process industry could be that you need material information from suppliers and external data for the coefficient from other providers. The exercise of understanding source data and systems helps to determine if you could stay with existing data architecture or do you need a new one to support the ESG pipeline. 
  • Select technologies: Choosing the right platform for your ESG data is crucial considering the maintainability and complexity of data sources. You may be attracted to use tools that have fancy pre-defined templates but be aware, 1) this does not remove the need for having a proper data platform and 2) these tools might have other limitations such as very specific requirements for overall architecture that could be in conflict with your organization’s guidelines. 
  • Data modelling: Start with an analysis identifying how much data is available to build your ESG pipeline. Data modeling for ESG will require combining the data from your systems with reference data (for common data and coefficients) to calculate your emissions and other KPIs. You should expect the model could probably contain hierarchical traversing to calculate the emissions on all granularities to identify which is the major contributor, and this could also be a decider in choosing your architecture. 
  • Solution development: Ideally the development process should follow your organization’s common process for building data solutions. At Etlia Data Engineering we always recommend agile development methodologies.  
  • Gradual development: Start Small. Due to the complex nature and limited availability of the data it’s a good approach to proceed modularly and build your solution step by step automating one part of the data flow at a time.  

– Raaju Srinivasa Raghavan & Mikko Koljonen 

Are you ready for ESG data automation? If you have any questions or need support in your ESG data process don’t hesitate to reach out to us by booking a short meeting!

Tekoäly datainsinöörin apuna – käytännön kokemuksia

Kirjoittanut Shubham Keshri

Datainsinöörinä ymmärrän, kuinka työlästä ja aikaa vievää toistuvien tehtävien suorittaminen voi olla. Siksi haluan jakaa joitakin tekoälyyn perustuvia vinkkejä, joilla voit virtaviivaistaa työtapojasi ja lisätä tuottavuuttasi.

Ensimmäinen työkalu, jota suosittelen lämpimästi, on Bing Chat GPT. Se on tekoälypohjainen chatbot, joka auttaa sinua monissa tehtävissä aina yksiköiden muuntamisesta pitkien artikkelien tiivistämiseen. Se on kuin henkilökohtainen avustajasi!

Toinen työkalu, jonka avulla voit säästää aikaa, on GitHub Copilot. Se auttaa sinua kirjoittamaan koodia nopeammin ja tehokkaammin. GitHub Copilot käyttää koneoppimista ehdottaakseen koodinpätkiä ja se suorittaa automaattisesti toistuvia tehtäviä, kuten taulukoiden luomista tai tiedostojen kopioimista paikasta toiseen.

Tekoälyn käyttö Azure Synapse Analyticsin kanssa

Eräässä asiakasprojektissa käytimme Azure Synapse Analyticsia rakentaaksemme tehokkaita dataputkia. Kuten ehkä jo tiedätkin, Azure Synapse ei kuitenkaan anna kirjoittaa koodia suoraan IDE:ssä. Sen sijaan on käytettävä portaalia.

Koodi piti kopioida esimerkiksi Notebookista ja liittää Bing AI:hin. Sama kuin yrittäisi pelata shakkia toinen käsi selän taakse sidottuna! Siksi käytämme tätä menetelmää vain satunnaisesti migraatioiden tekemiseen. Ratkaisu ei ole täydellinen, mutta joskus se toimii.

Koodin kopioiminen ja liittäminen ei ollut hauskaa! Mutta ehkä joku oli huomannut tämän turhan vaiheen: Visual Studion ja Visual Studion koodin kanssa toimivan GitHub Copilotin viimeisimmän päivityksen myötä voit nyt käyttää sisäänrakennettua chat-ominaisuutta samojen tehtävien suorittamiseen ilman, että sinun tarvitsee siirtyä sovelluksesta toiseen.

Tekoälyn käyttö Azure Synapse -työkirjojen kanssa

Seuraavaksi esittelen joitakin konkreettisia esimerkkejä siitä, miten näitä työkaluja voidaan käyttää yhdessä Azure Synapse -työkirjojen kanssa.

Jos työskentelet Synapsen työkirjojen ja Py Sparkin tai Spark SQL:n kanssa, tiedät, kuinka työlästä voi olla kirjoittaa koodia toistuviin tehtäviin, kuten taulukoiden luomiseen tai tiedostojen kopioimiseen paikasta toiseen. Mutta GitHub Copilotin avulla voit helposti automatisoida nämä tehtävät muutamalla näppäinpainalluksella.

Oletetaan esimerkiksi, että haluat luoda uuden taulukon Synapse Analyticsissa PySparkin avulla. Normaalisti tämä vaatisi useita rivejä koodia. Mutta GitHub Copilotin avulla sinun tarvitsee vain kirjoittaa ”create table” ja sen jälkeen taulukon nimi ja kunkin sarakkeen tietotyyppi. Seuraavaksi GitHub Copilot luo koko Py Spark -koodin puolestasi!

Voit myös kopioida Data Lake -tiedostoja paikasta toiseen Synapse Analyticsissa Spark SQL:n avulla. Silloin sinun tarvitsee vain kirjoittaa ”copy data lake files” ja sen jälkeen lähde- ja kohdepolut. GitHub Copilot luo jälleen koko Spark SQL -koodin puolestasi!

Nämä ovat vain muutamia esimerkkejä siitä, miten voit datainsinöörinä lisätä tuottavuuttasi käyttämällä Bing Chat GPT:tä ja GitHub Copilotia Azure Synapse -työkirjojen kanssa. Automatisoimalla toistuvia tehtäviä ja virtaviivaistamalla työtapojasi voit keskittyä siihen, mikä on oikeasti tärkeää: prosessien automatisointiin, tietojen analysointiin ja oivallusten tuottamiseen.

Jos sinulla on kysyttävää tai kommentteja, ota meihin yhteyttä. Muista myös pysyä avoimena uusille työtavoille ja jatka koodaamista!

P.S. Huomasitko, että tämä blogikirjoitus on kirjoitettu tekoälyn avulla?

Ota meihin yhteyttä saadaksesi lisätietoja

.