Data Platform Dilemma's: Fabric, Databricks, Snowflake of toch Europees?

12 februari 2026 61 min 3 gasten

Gepresenteerd door Pieter Koenis — Host · Oprichter Always Be Learning

Over deze aflevering

De grote dataplatformen vergeleken: Microsoft Fabric, Databricks, Snowflake — en de opkomende Europese alternatieven. Hoe weeg je kosten, vendor lock-in en data soevereiniteit tegen elkaar af? Een eerlijk gesprek over keuzes die je organisatie jaren beïnvloeden.

YouTube

Spotify

Gasten

Cathy Tol

Data Engineer & People Lead · Always Be Learning

Cathy is data engineer en people lead bij Always Be Learning. Master Business Analytics aan de VU, eerder actief bij Transavia, Alliander en het Ministerie van Binnenlandse Zaken, momenteel op opdracht bij de gemeente Amsterdam. Geeft naast haar werk Pilates-les en is fanatiek hardloper, zwemmer en fietser.

Auke Derksen

Head of Data · Always Be Learning

Auke is Head of Data bij Always Be Learning. Master Strategic Innovation Management aan de Rijksuniversiteit Groningen, eerder actief bij Flint, Mediahuis en Dura Vermeer in datarollen. Werkt nu op opdracht bij de gemeente Eindhoven en is daarnaast betrokken bij verschillende ABL-projecten.

Janna Berkhout

Senior Data Scientist & ML Engineer · Always Be Learning

Janna is senior data scientist en machine learning engineer bij Always Be Learning, met een achtergrond in biomedische wetenschap. Heeft in verschillende datarollen gewerkt bij onder andere Hunkemöller en Schiphol, en is nu actief bij Enza Zaden. Speelt piano en gitaar, gamet graag en is onverslaanbaar in Mario Kart.

Samenvatting

Cathy, Auke en Janna vergelijken de grote dataplatformen — Microsoft Fabric (veelzijdig maar Microsoft-gebonden), Databricks (krachtig en flexibel in engineering, maar de steilste leercurve), Snowflake (uitblinker in warehousing en direct out of the box) en Google Cloud/BigQuery (sterk voor e-commerce en marketing). Hun rode draad: kies niet op basis van wat je toevallig al hebt, maar bepaal eerst je doel en architectuur en kijk naar het soort organisatie en de mensen die je hebt. Een groot deel van het gesprek gaat over Europese datasoevereiniteit: door de Amerikaanse Cloud Act biedt zelfs een Europese server geen garantie, en volwaardige Europese alternatieven voor de grote platformen ontbreken nog grotendeels. De tip van de gasten: laat je niet gek maken door alle tools, kijk ook naar open source en probeer de gratis trials gewoon zelf uit.

Transcript

Pieter Koenis

Je wil een nieuw dataplatform omdat het bestaande niet meer voldoet, of omdat je on-premise hebt en je naar de cloud wil. Hoe pak je die keuze aan?

Auke Derksen

Wat je heel vaak ziet, is dat men eerst kijkt naar wat we al hebben. Maar als je even terugkijkt naar het dilemma, dan denk ik dat je eerst goed moet kijken wat je nou eigenlijk daarmee wil. En dat je daar je keuze op zou moeten baseren. Misschien zelfs nog een stapje daarvoor: wat is nou mijn doel met dat dataplatform? Want dat beïnvloedt wat mij betreft ook heel erg de keuze voor het platform zelf. Het ene platform is nou eenmaal sterker in het een, het andere platform is sterker in het ander.

Pieter Koenis

Welkom bij Kwestie van Data, de podcast waarin we ervaringen en kennis delen over alle aspecten van data. Van het opzetten van dataplatformen tot aan het bouwen van dashboards en AI-modellen. En van het leiden van datateams tot aan het impact maken voor de business. Ik ben Pieter Koenis, oprichter van databureau Always Be Learning. Vandaag heb ik drie gasten aan tafel die samen heel veel verschillende dataomgevingen hebben gezien. Ik ga met hen in gesprek over dataplatformen en hoe je de beste keuze kan maken voor jouw organisatie. Daarnaast bespreken we welke Europese dataplatformen er zijn als alternatief voor de grote Amerikaanse platformen. Dus als je CIO of IT-manager bent en jouw organisatie staat voor de keuze van een nieuw dataplatform, dan heb je geluk en kan je met de kennis van mijn gasten je voordeel doen. Leuk dat jullie er zijn: Janna, Auke en Cathy. Ik stel jullie kort voor, aanvullen mag altijd. Cathy, al bekend van een eerdere podcast, data engineer en people lead bij Always Be Learning, woont in Volendam. Heeft dataomgevingen gezien van onder andere Alliander, het ministerie van Binnenlandse Zaken en nu de gemeente Amsterdam. Je hobby's, zoals we weten: sporten. En nog eens sporten. En twee weken geleden lekker op wintersport geweest. Skiën of snowboarden?

Cathy Tol

Skiën. Maar niet zo heel goed hoor.

Pieter Koenis

Nee.

Cathy Tol

Nog niet.

Pieter Koenis

Dat zeg je over vrij veel dingen. En dan blijkt het toch niet waar te zijn. Ging je dan elke dag skiën?

Cathy Tol

Nee, we hebben één dag overgeslagen. Toen gaf hij heel veel sneeuw op. Achteraf had het wel gekund. Maar toen zijn we gaan hardlopen.

Pieter Koenis

Dat dan wel. Toch nog wel even. En dat was wel sporten, toch? Skiën noem je geen sporten?

Cathy Tol

Jawel, dat telde ook wel mee.

Pieter Koenis

Excellent, heel mooi. Auke, head of data bij Always Be Learning, woont in Nijmegen. Dataomgevingen gezien van onder andere Flynth, Mediahuis en nu de gemeente Eindhoven. In je vrije tijd onder andere Spaans leren. Want jij gaat volgende week drie maanden op sabbatical.

Auke Derksen

Ja, dat klopt.

Pieter Koenis

Alles ingepakt?

Auke Derksen

Nee, het hele logeerbed ligt vol. Maar ik heb de meeste spullen denk ik wel bij elkaar nu.

Pieter Koenis

Oké, mooi, mooi, mooi. Je hebt nog tot?

Auke Derksen

Maandag ga ik. Dus dat is nog een paar dagen.

Pieter Koenis

Ja, precies.

Auke Derksen

Een paar keer Duolingo openen en dan komt het goed.

Pieter Koenis

Mooi. En Janna Berkhout, senior data scientist en machine learning engineer bij Always Be Learning, woont in Zaandam. Je hebt dataomgevingen gezien van onder andere Hunkemöller, Schiphol en nu Enza Zaden. Ik weet dat jij heel mooi piano kan spelen, ook viool, toch? En volgens mij speelde je nog meer instrumenten.

Janna Berkhout

Ja, gitaar een beetje.

Pieter Koenis

Oh, gitaar speel je ook een beetje. Ook snaren. Ja, precies. Janna wint echt van iedereen met Mario Kart bij ons op kantoor. Wat is jouw favoriete offline spelletje?

Janna Berkhout

Oh, goede vraag. Nou, ik ben binnenkort jarig en ik heb een bordspelletje gekregen dat ik graag wilde hebben. Ik moet het nog spelen. Maar dat is een soort pandemic, een coöperatief bordspel.

Cathy Tol

Ja, daar heb ik weleens van gehoord.

Janna Berkhout

Dan met het Lord of the Rings-thema. Ik ben echt de ultieme nerd, want je moet dus met een groepje samen de ring naar Mount Doom brengen.

Pieter Koenis

Oh, dat is wel leuk. Neem maar mee op een weekendje.

Janna Berkhout

Ja, inderdaad.

Pieter Koenis

Goed idee. Leuk. We gaan het dus hebben over dataplatformen. Ik heb een aantal dilemma's voor jullie. Die ga ik even oplezen. En dan is het kort: A of B. Wellicht dat we het er later nog over gaan hebben, dus nuanceren mag later. A: eerst platformselectie, dan architectuur bepalen. Of B: eerst architectuur bepalen, dan platformselectie. Cathy.

Cathy Tol

Pieter Koenis

Eerst de architectuur, ja?

Auke Derksen

Ja, ook B.

Pieter Koenis

Oké, ik ook B. Helemaal geen dilemma.

Janna Berkhout

Nee.

Pieter Koenis

Mooi, voor ons niet. Dan dilemma twee. A: als je een platform implementeert, binnen drie maanden je eerste waarde halen met het platform, dus waarde toevoegen aan de business, is haalbaar. Of B: binnen drie maanden waarde toevoegen aan de business met een nieuw platform is meestal wishful thinking.

Janna Berkhout

Ah. Toch wel een beetje wishful thinking.

Pieter Koenis

Ja?

Janna Berkhout

Ja.

Pieter Koenis

Misschien ben je een pessimist.

Janna Berkhout

Misschien.

Pieter Koenis

Dan de laatste. A: een Amerikaans dataplatform met opslag in de EU is prima. Of B: toch liever volledig EU, want het blijft anders niet Europees onafhankelijk. Dus A: een Amerikaans platform waarvan ze zeggen dat het in de EU opgeslagen staat. Of B: volledig EU.

Janna Berkhout

Dat is wel een goed dilemma.

Cathy Tol

Ja, dat is wel een goed dilemma.

Pieter Koenis

Daar heb ik geen mening over.

Janna Berkhout

Dat ligt aan zoveel factoren. Ik denk idealiter B, maar realistisch A.

Pieter Koenis

We gaan het er zo meteen nog over hebben, dus we nemen je er niet op vast. Ik zeg nu A. Heel goed. Een dataplatform: wat is de definitie van een dataplatform? Wie begint? Wie begint?

Cathy Tol

Ik wil wel beginnen. Als ik aan een dataplatform denk, dan denk ik aan alles in één platform. Waarbij je dus niet alleen je storage en je compute hebt, maar alles daaromheen wat je nodig hebt om je data engineering en je data-analyse te kunnen doen. Dus niet alleen te kunnen doen, maar ook goed te kunnen doen en goed bij te kunnen houden. Veilig, op een juiste manier. Denk aan je governance, je security, audit, monitoring, logging. Een hele lijst. En dat allemaal in één platform, in één UI. En natuurlijk waar je heel veel data kunt verwerken. Dus het draait niet op één machine, maar het is een cluster van machines. Dus die hele bak met data kan vrij snel gedistribueerd verwerkt worden.

Pieter Koenis

Kijk, een flinke definitie. Heeft iemand die hem iets korter kan maken?

Auke Derksen

Ik denk wel dat wat Cathy zegt, alles raakt wat een platform zou moeten zijn. Het gaat natuurlijk om data, dat is de kern. En ik denk dat de definitie dan dus is dat je alles kan doen met die data wat nodig is om er waarde uit te halen. Dat dat de definitie van een dataplatform is. En dan raak je dus alle punten die Cathy noemt. Maar ik denk dat dat wel een mooie definitie is: om het op te slaan, te bewerken, governance, et cetera. Dat je daarmee wel redelijk vangt, wat mij betreft.

Pieter Koenis

Oké, heel goed. Mijn volgende vraag was: welke onderdelen zitten er meestal in een dataplatform? Die zitten redelijk in jouw definitie. Oké, mooi. Wat zijn de bekendste dataplatformen volgens jullie?

Cathy Tol

Ik zou zeggen Databricks, Fabric en Snowflake.

Auke Derksen

Oké. Ja, Google denk ik nog wel. Google Cloud Platform, ja.

Pieter Koenis

AWS?

Cathy Tol

Nee, dat is een cloud provider. Die valt niet onder de definitie volgens mij.

Pieter Koenis

Nee, dat is iets anders. Ja, maar je hebt wel tools binnen AWS waarmee je een dataplatform kan bouwen.

Cathy Tol

Je kunt dataplatformen hosten op AWS.

Pieter Koenis

Ja. Maar dat zou je niet als dusdanig willen definiëren.

Cathy Tol

Nee.

Pieter Koenis

Oké. En jullie? Want voor Google Cloud Platform kan je dan hetzelfde zeggen.

Cathy Tol

Nou, dat zou ik wel zeggen inderdaad.

Janna Berkhout

Nee, het Google Cloud Platform heeft tegenwoordig best wel veel functies ingebouwd, waarmee je dus wel governance, databewerking, visualisatie, eigenlijk alles, daarbinnen gekoppeld hebt. Of het heeft een sterke integratie met andere Google-producten die dat doen. Dus ik denk dat je dat wel onder een platform kan scharen.

Auke Derksen

Ja, ik denk dat hetzelfde een beetje geldt voor AWS ook wel. Er zijn steeds meer toolingetjes die dan samen wel een soort platform zijn of kunnen zijn. Maar als je een beetje de definitie van Cathy volgt, dan niet.

Pieter Koenis

Ja, precies.

Auke Derksen

Oké, nou goed, daar komen we later nog wel over te spreken.

Pieter Koenis

Ik kom zelf wat definities tegen waarvan ik denk: misschien is het goed om die eventjes neer te zetten en te kijken wat het verschil is. Want je leest over data warehouses, je leest over data lakes en je leest ook over data lakehouses. Wat is het verschil?

Auke Derksen

Ja, wie wil dat vertellen? Ik weet wel wat het verschil is. Of tenminste, voor mij is het op zich wel een duidelijk verschil. Ik denk dat een deel ook wel een soort buzzwordachtig is.

Pieter Koenis

Want een data lakehouse is volgens mij geclaimd door Databricks, toch?

Auke Derksen

De lakehouse-architectuur.

Cathy Tol

Of in ieder geval bedacht door de makers van dit object.

Pieter Koenis

Oké, vooruit.

Auke Derksen

Ja, kijk, ik denk dat je een warehouse kan zien als de klassieke manier waarbij je gestructureerde data dusdanig opslaat dat je er iets mee kan voor reporting. Dat is denk ik een beetje voor mij wat de definitie is, met de nadruk dus op gestructureerde data. En ik denk dat als je naar het lakehouse-idee gaat, dat daar eigenlijk van de laatste jaren bij is gekomen dat je ook ongestructureerde data hebt, of semi-gestructureerd. En dat wil je ook vangen, en daar wil je ook iets mee doen en over rapporteren. En dat is een beetje waar nu de lakehouses op stoelen, zodat je eigenlijk ongestructureerd en gestructureerd in één unit kan verwerken en dat je daar wat mee kan. Een data lake is dan denk ik een beetje de onderliggende term. Dat noemen ze de opslag waar dat allemaal plaatsvindt, waar dat allemaal landt. Want bijvoorbeeld bij Azure heet het ook Azure Data Lake. Zo noemen ze het dus ook gewoon, wat in feite gewoon opslag is.

Janna Berkhout

Misschien is je lakehouse een soort storage unit voor de lange termijn. Even om het visueel te maken: zo'n container die je kan huren en waar je oude meubels die je bijna nooit nodig hebt in kan gooien. En dan is je data warehouse misschien wat je in je keukenkastjes hebt staan, waar je makkelijk bij kan.

Pieter Koenis

Oké, ja, ja, ja. Want je noemde Azure Data Lake?

Auke Derksen

Ja.

Pieter Koenis

Kan je daar dan ook gestructureerde data in opslaan?

Auke Derksen

Ja.

Pieter Koenis

Of is het...

Auke Derksen

Dat kan zeker. Kijk, in feite is de ADLS de opslag van Azure, Azure Data Lake Storage. En daar kun je in feite alles opslaan wat je zou willen. Dat kunnen tabellen zijn die gestructureerd zijn, dat kunnen JSON-bestanden zijn die semi-gestructureerd zijn, dat kunnen foto's of video's zijn die niet gestructureerd zijn. En daar wil je iets mee doen. Met die tabellen kun je dat daadwerkelijk doen. Dus die kun je in een warehouse stoppen, en dan kun je het queryen en er wat analyse mee doen. En hetzelfde geldt eigenlijk voor een lakehouse, maar daar kun je dus ook je foto's en video's in stoppen, waarmee je dus ook met code iets kan doen en kan analyseren. En dat is eigenlijk het hele idee. Dus een warehouse is denk ik vooral gestructureerd, bedoeld om analyse te doen, queries te draaien. Een lakehouse is wat meer all-purpose, dus je kan dat stukje ook nog doen, maar je kan ook ongestructureerd en met andere talen werken. En daaronder ligt het data lake, wat gewoon de opslag is voor alles. Zo zie ik het een beetje.

Cathy Tol

En ik denk dat de toegevoegde waarde die je daaruit haalt, is dat je het op eenzelfde manier op kunt halen. Dus of het nou gestructureerde of ongestructureerde data is, het is één manier om met die data te communiceren. Dus er gaat een laagje overheen. Delta Lake is een protocol om met die data te kunnen praten. En dat zorgt er dan voor dat je op diezelfde manier met gestructureerde data kunt praten als met die ongestructureerde data.

Pieter Koenis

Mooi. We hebben het dus over verschillende platformen. Ik ben benieuwd, het is altijd weer een terugkerend thema: hoe pak je het nou aan, wat ik zei in mijn intro, je staat voor een nieuw dataplatform omdat het bestaande niet meer voldoet, of omdat je on-premise hebt en je naar de cloud wil. Hoe pak je die keuze aan?

Auke Derksen

Het is aan de ene kant een makkelijke keuze, en aan de andere kant ook een ingewikkelde keuze. Wat je heel vaak ziet, is dat men eerst kijkt naar wat we al hebben. Nou, dat kan iets on-premise zijn. Heel vaak in Nederland hebben heel veel bedrijven al Microsoft. En dat beïnvloedt vaak toch al wel de keuze voor een dataplatform. Maar als je even terugkijkt naar het dilemma, dan denk ik dat je eerst goed moet kijken wat je nou eigenlijk daarmee wil. En dat je daar je keuze op zou moeten baseren. Dus eigenlijk de architectuur, of misschien zelfs nog een stapje daarvoor: wat is nou mijn doel met dat dataplatform? Want dat beïnvloedt wat mij betreft ook heel erg de keuze voor het platform zelf. Het ene platform is nou eenmaal sterker in het een, het andere platform is sterker in het ander. Dus als je er heel blanco naar zou kijken, zou je bijvoorbeeld ook misschien minder snel bij Microsoft uitkomen, omdat een ander platform misschien beter bij jouw doel past. Maar omdat je Microsoft hebt, stap je over naar Microsoft bijvoorbeeld. Dus als je heel sec zou kijken naar wat je nodig hebt, ik denk dat dat belangrijk is: welk doel heb ik en welk platform past daarbij?

Cathy Tol

Ik denk dat je daarnaast ook zou moeten bedenken naar wat voor soort organisatie je toe wilt. Dus hoe ben je als organisatie georganiseerd? Wat voor soort mensen heb je in dienst? Wat voor soort teams heb je, of wil je naartoe groeien?

Auke Derksen

Ja, dat vind ik ook een hele mooie. Dat is ook belangrijk voor je keuze.

Janna Berkhout

Ik denk dat je je daar ook niet te sterk door moet laten leiden, want vaak zijn bedrijven heel erg gesilood. En dan heb je ook het risico dat je data heel erg gesilood raakt. Dat zien we ook wel veel terug. Dat dan je marketingafdeling werkt met één dataset en je financeafdeling werkt met een andere dataset. En die werken allebei met dezelfde KPI's, maar ze zijn allemaal anders berekend, gebaseerd op andere bronnen. Ja, dan loop je tegen dat soort dingen aan.

Cathy Tol

Dus ik denk inderdaad dat je én moet kijken naar wat je nu doet, maar vooral ook naar waar je naartoe wilt en wat je wilt doen en hoe je dat dan wilt doen.

Janna Berkhout

Precies, hoe je dat op de meest efficiënte manier kan doen.

Cathy Tol

De uitkomst kan dan zijn: je werkt nu in silo's, maar dat is misschien helemaal niet zo handig. Of misschien juist wel, want dat vinden wij wel handig.

Janna Berkhout

Nee, voor je data dus meestal niet.

Pieter Koenis

Dus de manier waarop je de organisatie wil structureren.

Auke Derksen

Ja, dat is wel belangrijk. Want welke mensen heb je nou, wat Cathy zegt? Heb je heel veel kennis in huis, of juist niet? Dat beïnvloedt denk ik ook wel de keuze.

Cathy Tol

Of wil je daarin investeren? Wil je die binnenhouden?

Auke Derksen

Juist, precies. Willen we een beetje low-codeachtig doorgaan? Of willen we juist hardcore developers hebben? Dat beïnvloedt denk ik ook wel je platformkeuze.

Janna Berkhout

Wat dat betreft zijn er best wel veel opties mogelijk. Als je alles vanaf scratch zelf zou willen bouwen met je eigen data engineers, dan kan dat. Maar als je een volledig end-to-end SaaS-oplossing wil, dan kan dat ook.

Auke Derksen

Ja.

Janna Berkhout

Dus en je hebt heel veel dingen die ertussenin zitten. Dus wat dat betreft is er gewoon heel veel mogelijk. Wat het ook niet makkelijk maakt om zo'n keuze te maken.

Pieter Koenis

Nee, zeker. Even denken. Wat is nou een realistische tijdsplanning voor het implementeren van een nieuw dataplatform? Valt daar iets zinnigs over te zeggen?

Auke Derksen

Nou ja, zeker. We zeiden het net al bij het dilemma: binnen drie maanden moet er waarde komen. Dus ik vind dat dat wel altijd het uitgangspunt moet zijn. Staat het dataplatform dan ook binnen drie maanden? Nou ja, ik denk misschien niet elk platform, maar ik denk dat er zeker platformen zijn waar je binnen drie maanden iets van waarde uit kan halen, inclusief het neerzetten.

Cathy Tol

Of misschien niet zo compleet als je het uiteindelijk zou willen, maar wel om iets te hebben waar je mee kunt beginnen.

Auke Derksen

En dat hoeft ook niet, denk ik. Dat is misschien dan ook de boodschap. Je hoeft niet altijd meteen binnen drie maanden klaar te zijn met alles. Ik denk dat het juist ook mooi is dat je daarna iteratief door kan ontwikkelen en de juiste dingen kan kiezen. Alleen, het is denk ik wel mooi als je focus is: ik ga zo snel mogelijk ook waarde uit zo'n platform halen. Ik heb dat weleens eerder gezegd: het hebben van zo'n platform op zich, dat boeit niet zoveel. Dus ik denk dat die focus wel belangrijk is.

Pieter Koenis

Wat is nog meer belangrijk bij een keuze of bij het proces van neerzetten? Wat zijn nog meer belangrijke dingen?

Auke Derksen

Governance. Zeer belangrijk. En uiteraard kosten.

Pieter Koenis

Ja, governance, wat bedoel je daarmee?

Auke Derksen

Het technisch neerzetten van een platform kan op zich best prima gaan, maar je hebt ook heel veel data die erop moet landen. En is die data kwalitatief goed? Zijn daar eigenaren van? Weten die eigenaren wat hun verantwoordelijkheden zijn? Dat zijn denk ik allemaal dingen die je ook mee moet nemen in zo'n proces. En dat zijn vaak juist ook dingen waar het mis op gaat, omdat dat ondergeschikt is eigenlijk.

Pieter Koenis

En verschilt dat nog per platform, dat je daar anders mee om moet gaan? Of is governance een proces, een manier van ergens naar kijken, wat eigenlijk altijd hetzelfde is?

Auke Derksen

Nou, een beetje van beide, denk ik. Ik denk namelijk dat de kern van het proces altijd hetzelfde kan zijn. Alleen ik denk dat het ene platform het beter kan faciliteren dan het andere platform. Dus als je daar al sterk in bent als organisatie, heb je daar misschien meer keuze in. Volgens mij komen we daar straks nog wel op. Databricks heeft daar volgens mij best wel mooie tools voor om dat heel goed te faciliteren en te ondersteunen. Dus dan kan het je ook weer helpen om dat proces goed vorm te geven en op te zetten. Dus ik denk dat het van beide kanten wel raakt.

Pieter Koenis

Governance klinkt voor mij altijd als iets wat vooral voor grote organisaties belangrijk is.

Auke Derksen

Datamanagement klinkt altijd vervelend. Maar het is superbelangrijk.

Pieter Koenis

Maar stel je voor, je bent een MKB-bedrijf, honderd man, dus een wat kleiner bedrijf, maar je hebt wel bijvoorbeeld een e-commercebedrijf waardoor je veel data hebt. Maar je hebt niet echt een groot datateam, of zelfs geen of één persoon. Hoe regel je dan je governance in?

Auke Derksen

Nou, ook dan is governance belangrijk, want de kwaliteit van je data is nog steeds belangrijk. En dat je daar enigszins zicht op hebt, is ook belangrijk. Dus ook al heb je tien man, als die allemaal actief data invoeren en jij wil iets met die data doen, dan heb je daar in feite niks aan. En dat valt wat mij betreft ook allemaal onder governance: zorgen dat de mensen bewust zijn van "hé, ik zit in een proces, we gaan hier later iets mee doen, dus ik moet dit wel goed invullen". Dat is ook al governance. En dat is eigenlijk onafhankelijk van hoe groot je bent. En dan klinkt het heel zwaar, maar dat kan bij wijze van spreken een handleiding zijn: doe het altijd zo.

Cathy Tol

Ik denk ook dat het helemaal niet moeilijk hoeft te zijn. Helemaal als het een kleine organisatie is, dan kun je heel klein beginnen. Maar het is wel heel makkelijk om het vanaf het begin af aan goed te doen. Je gaat er zo tegenaan lopen als je het niet vanaf het begin gedaan hebt.

Auke Derksen

Dat is waar. Ik denk eigenlijk inderdaad dat het makkelijker is bij kleinere organisaties. Omdat, hoe groter de organisatie, hoe vaker er al processen in play zijn die ook nog eens botsen met elkaar, waar men naar elkaar gaat kijken. Ik heb dat wel eerder meegemaakt bij opdrachten, dat processen totaal niet op elkaar aansluiten. En dat men dus ook elkaar gaat aankijken: ja, maar dat is niet mijn probleem, want dat komt uit jullie proces. Dus dan is het eigenlijk een groter probleem dan als je met z'n tienen bent en je gewoon kan zeggen "hé, we moeten dit even zo doen, want dan wordt het allemaal beter".

Pieter Koenis

Oké. En we hadden het even over het leveren van businesswaarde. Wat is voor jullie iets waarmee je goed als eerste waarde kan opleveren voor de business? Wat zouden daar goede voorbeelden voor zijn?

Cathy Tol

Dat kan in dashboarding bijvoorbeeld zitten. Dus een reden om een dataplatform te hebben kan bijvoorbeeld zijn omdat de business gebruik wil maken van dashboards, omdat ze iets uit hun data willen halen. Dan zou je kunnen beginnen met één klein minimaal dashboardje waarop die bepaalde datastroom alvast in kaart gebracht wordt.

Pieter Koenis

Dat is het makkelijkst te realiseren.

Janna Berkhout

Nou, of misschien nog makkelijker is ad hoc analyses laten doen als je één analist hebt die een beetje SQL kan. En dat je dat mooi in een data warehouse gemodelleerd hebt, zodat die daar makkelijk bij kan. Dan kan je al heel snel waardevolle inzichten halen uit die data, zonder dat je ook nog maar een dashboard hebt staan.

Pieter Koenis

Precies, om ergens op te focussen. Een probleem waar ze al langer tegenaan lopen bijvoorbeeld.

Janna Berkhout

Wat je nu analyseert, wat je misschien in een uurtje gedaan hebt.

Auke Derksen

Ik zie daar ook nog als bijvangst in, wat misschien niet helemaal netjes is, het faciliteren van bepaalde processen. Daar kan een dataplatform ook in helpen. Omdat processen niet goed zijn ingericht, kan je bijvoorbeeld een soort cheaten door een dataplatform te gebruiken om dat te verbeteren.

Pieter Koenis

Hoe doe je dat cheaten dan?

Auke Derksen

Nou bijvoorbeeld, je hebt systeem A en je moet er allemaal data uithalen, en dat moet naar systeem B. Nou, dat moeten mensen nu bijvoorbeeld overtypen, met bepaalde berekeningen en dat soort dingen. Dan kun je eigenlijk heel snel iets toevoegen door te zeggen: oké, we halen het naar het platform, we doen die bewerkingen automatisch en dan zetten we een setje klaar wat gewoon geïmporteerd kan worden. Kijk, daar zou het niet voor bedoeld moeten zijn, want dan zou je moeten zeggen "hé, we moeten onze processen aanpassen". Maar het is wel iets wat stiekem toch alvast even tijdswinst kan opleveren, waarde kan laten zien aan mensen die ermee moeten gaan werken. Dus als je daar met de juiste insteek in gaat, kan dat denk ik ook wel echt een toegevoegde waarde zijn.

Pieter Koenis

Maar je hebt daarmee toch het proces aangepast?

Auke Derksen

Ja, alleen ik vind eigenlijk dat het dataplatform in die zin niet operationeel in het proces gestopt moet worden. Ik denk dat je dan eigenlijk moet zeggen "hé, applicatie A moet gewoon communiceren met applicatie B". Dat moet niet afhankelijk zijn van het dataplatform. Al zijn er ook wel tegenwoordig steeds meer discussies dat je zegt: nou, we willen sowieso alles op het platform en daarna gaan we het distribueren. Maar goed, dat is een andere discussie.

Pieter Koenis

Ja, want je kan bij je dataplatform wel zorgen dat je de centrale datadefinitie hebt.

Auke Derksen

En dat kan zeker een meerwaarde zijn, alleen waar trek je dan de grens? Dat is heel lastig. Want wat als er nou gewoon events van A naar B moeten die verder geen waarde voor iets hebben, anders dan dat ze heen en weer moeten? Ga je dat dan ook in die driehoek pingpongen? Daar zie ik dan weer geen meerwaarde in. Er ligt ergens een grens, en die grens is dan altijd een beetje vaag, wat mij betreft.

Pieter Koenis

Ja, laten we de grootste eens naast elkaar leggen: Fabric, Databricks, Snowflake en Google Cloud Platform, slash Google BigQuery. Even om daar meteen op in te haken, Janna: je vertelde over de verschillende tools van Google Cloud Platform. Wat zijn de belangrijkste tools als je het hebt over het nabootsen van wat een dataplatform is volgens de criteria van Cathy?

Janna Berkhout

Nou, allereerst laat ik even voorop stellen dat ik zelf niet echt dataplatformen bouw. Ik interacteer ermee als data-analist en data scientist. Maar wat ik zelf heel prettig vind om te gebruiken, en wat ik veel gebruikt heb, is BigQuery. Daarmee kan je toch best wel eenvoudig met SQL ook analyses doen op je data. Eigenlijk makkelijk voor iedereen om te gebruiken, om mee te communiceren. Je kunt het met Python-scripts aanroepen en wegschrijven. Dat vind ik fijn in het gebruik, gebruiksvriendelijk. Verder weet ik dat je ook steeds meer tools hebt die meer gericht zijn op AI en engineering. Dus met Azure heb je bijvoorbeeld Azure ML. En ik geloof dat het bij Google Cloud Platform iets van Vertex AI heet, waar ik je niet op vastpin, want ik heb het niet gebruikt. Dat is ongeveer hetzelfde. Dus er komen wel steeds meer van dat soort functionaliteiten bij. Je hebt uiteraard tools die hele ETL-processen kunnen doen.

Pieter Koenis

Dus je kan alle functionaliteiten bij elkaar sprokkelen.

Janna Berkhout

In principe kan je alles bij elkaar sprokkelen om te doen wat al die andere platformen er ook in hebben. Daarbij zeg ik wel dat het allemaal Google is. En dat zal ik zo meteen misschien nog wel toelichten. Het is een sterk punt en een zwak punt eigenlijk.

Auke Derksen

Ik heb ook het idee, maar ik weet niet of jij dat herkent, dat het vooral vanuit de marketing heel sterk is.

Janna Berkhout

Ja, voor marketing en e-commerce kan het handig zijn. Want als je online marketing doet, of je hebt een webshop of whatever, dan log je heel veel events. En die kan je dan, nou ja, je trackt je Google Ads, en die kan je allemaal heel erg gemakkelijk aan elkaar koppelen omdat het allemaal Google-based is. Je hebt je Google Analytics, je hebt je Google Ads, je hebt je Campaign Manager 360, ze hebben zo waanzinnig veel marketingplatformproducten. Het is gewoon letterlijk een vinkje aanzetten en dan staat het in je BigQuery. Je geeft op wat je schema is en weet ik veel wat, en het staat er. Dus dat is een beetje de kracht daarvan. Dat als je al online marketing doet en je zit in die e-commercehoek, het heel snel op te zetten is. Ja, dat is eigenlijk een beetje de kracht van Google Cloud.

Pieter Koenis

Dus supersnel koppelen, alle data erin krijgen en dan bijvoorbeeld visualiseren via Looker.

Janna Berkhout

Ja, ze hebben Looker Studio, dat is echt een beetje een gebruiksvriendelijke variant, waarmee zelfs mensen met weinig ervaring in het maken van dashboards heel makkelijk drag-and-drop visualisaties kunnen maken, heel snel. Ook dat heeft weer allemaal integratie met allemaal Google-producten. Dus je hoeft niet eens te linken met je warehouse, je kunt direct linken aan Google Ads of Campaign Manager of waar je het vandaan haalt. Daar hebben ze allemaal wel slim op ingespeeld. En daarnaast heb je Looker, en dat is wat ingewikkelder. Daar kun je ook nog een soort semantic-viewmodellaagje overheen bouwen. Wat dan weer nu helemaal hot is, omdat je dat kan gebruiken voor je AI-agents, om context te geven aan je data, waardoor je dus met een prompt kan vragen: maak deze grafiek op basis van sales. En dan weet hij op basis van het semantic-viewmodel: oh oké, maak even een grafiek van sales. En dan heb je bijna geen data-analyse meer nodig eigenlijk.

Auke Derksen

Echt nodig, nee.

Janna Berkhout

Behalve natuurlijk om al die semantic-viewmodellen mee te bouwen.

Pieter Koenis

Dus bij die semantic models, daar wordt het wat technischer.

Janna Berkhout

Het is lastig op te zetten, maar als het eenmaal staat, dan heeft het wel veel potentie.

Pieter Koenis

Nou ja, precies. Je noemt als sterke punten dat binnen Google heel veel geklikt kan worden, gewoon aanvinken en dan heb je de data bij elkaar. Maar inderdaad, met Looker als tool met een semantische laag, dan wordt het wat ingewikkelder om dat goed in te vullen.

Janna Berkhout

Ik denk dat het grote nadeel is dat als je dus andere, niet-Google-bronnen eraan wil verbinden, het complexer wordt. Dan is het niet zomaar een vinkje aanzetten. En het feit dat het allemaal binnen het Google Cloud Platform zit, betekent niet dat het de betere tools zijn. Je hebt bijvoorbeeld bij Snowflake dbt geïntegreerd. En kijk, ze hebben in Google Cloud Platform een soort dbt nagemaakt, maar dat betekent niet dat dat beter is. En zo heb je allemaal dingen: je hebt ze wel, maar is het ook daadwerkelijk het beste? Daar kan je dan je vraagtekens bij zetten.

Pieter Koenis

Oké. En even kijken naar Fabric. Kan je daar een introductie over geven, Auke? Wat zijn de belangrijkste tools, et cetera?

Auke Derksen

Zeker. Als we het hebben over die definitie van een dataplatform, dan probeert Fabric eigenlijk alles te vangen in dat platform. Dus waar sommige tools wat meer specialistisch zijn, zoals bijvoorbeeld Snowflake, dat niet zozeer gebaseerd is op echt het binnenhalen van data, probeert Fabric dat allemaal te vangen. Dus je hebt eigenlijk een set aan tools die je in de brede zin kan gebruiken om je data te managen, op te slaan, te bewerken, binnen te halen, te governen. En dat is eigenlijk wat Fabric is. Dan heb je tools zoals Fabric Data Pipelines voor orchestratie en ook om data te kopiëren. Dataflows is een tool die een hele mooie UI heeft, drag and drop, waar je heel snel dingen mee kan ophalen, transformeren, neerzetten. Maar ook gewoon Spark-notebookjes kun je draaien. We hadden het over warehouses en lakehouses. Nou, daar heeft Fabric allebei een versie van gemaakt. Dus zo probeert Fabric eigenlijk, denk ik, een soort mooie SaaS-oplossing te zijn, alles in één, voor de data-analist en data engineer.

Pieter Koenis

Klinkt op zich goed, toch? Maar is in principe ook hetzelfde probleem als met Google, dat het allemaal Microsoft-tools zijn.

Auke Derksen

Jazeker, dat is precies hetzelfde. Dat is een voordeel en een nadeel. Al proberen ze wel zoveel mogelijk ook echt externe bronnen toe te voegen. Dus je kan denk ik wel makkelijker dan met Google nog externe bronnen koppelen. Maar het is wel allemaal Microsoft, dus het werkt in feite het beste met allemaal andere Microsoft-spullen. En ze hebben natuurlijk OneLake, wat een mooi onderdeel is, waarin je het hele opslagstuk abstraheert van de eindgebruiker. Dus in feite is het heel makkelijk: ik doe iets, dat staat ergens in de cloud, maar ik hoef dat allemaal niet te managen en bij te houden. De rechten onderling, dat wordt allemaal voor je weggehouden.

Pieter Koenis

Maar dat is dus allemaal Microsoft, ja. En Snowflake?

Auke Derksen

Ja, daar hadden we het net al kort over. Ik denk ook wel een hele mooie tool. Ik denk ook wel wat sterker bijvoorbeeld in AI. Ik denk dat de kern echt de data warehousing is, zoals we het net beschreven. Daar zijn ze supergoed in, heel snel. Er zit ook een usage-based pricingmodel onder, dus je betaalt echt alleen maar voor je gebruik. Ik denk dat je heel snel out of the box kan starten. Dus waar andere tools toch nog wat meer configuratie nodig hebben, is Snowflake iets wat je bij wijze van spreken, volgens mij verkopen ze het ook zo, uit de doos haalt en ermee aan de gang kan. Dus ik denk dat dat ook wel een heel mooi voordeel is. Alleen, na wat ik eerder zei, het heeft dus bijvoorbeeld niet alle functionaliteiten om data naar Snowflake toe te halen. Dus daar zul je sneller zien dat er externe tools zoals Fivetran of dat soort tools voor gebruikt worden.

Pieter Koenis

Omdat er van een bron naar...

Auke Derksen

Ja, precies. En dat kan een prima keuze zijn.

Janna Berkhout

Ik vind het wel fijn dat ze een beetje platform- en toolagnostisch zijn, toch?

Auke Derksen

Ja, dat zijn ze helemaal. Je kan het op elk van de grote drie draaien. Je kan het op Azure, AWS en Google draaien.

Janna Berkhout

Ja, dat maakt verder niet uit wat je gebruikt. Het loopt maar gewoon via hun platform uiteindelijk.

Auke Derksen

Ze hebben ook de storage en de compute gescheiden, dus je kan daarin heel snel ook opschalen.

Janna Berkhout

Ja, dat heeft Google Cloud overigens ook.

Pieter Koenis

Maar je zegt: Snowflake haal je uit de doos en dan kan je starten. Maar als het data in Snowflake krijgen moeilijk is, wat kan je dan starten als er geen data in staat?

Auke Derksen

Ja, dan gaan ze er dus vanuit dat je je data ergens al hebt staan, in een opslag ergens in AWS of in Azure, op die manier.

Pieter Koenis

Ja, precies. En Cathy, Databricks, korte intro.

Cathy Tol

Ja, die kan eigenlijk al die andere dingen die jullie net benoemd hebben.

Auke Derksen

Maar beter.

Cathy Tol

Dat wil ik niet zeggen, want ze kunnen het allemaal goed. Ik denk dat, als je het vergelijkt met bijvoorbeeld Fabric, het dus ook zo'n alles-in-één-platform is. Ze proberen zoveel mogelijk bij elkaar te zetten, goed geïntegreerd, zodat je daar zelf niet meer naar om hoeft te kijken. Dus uiteindelijk denk ik dat het qua features en qua tooling allemaal op hetzelfde neerkomt: je kunt je data binnenhalen, je kunt het verwerken en je kunt het beschikbaar stellen. Maar ik denk dat hetgene waarin ze verschillen, meer zit in hoe je het gebruikt. Dus hoe gebruiksvriendelijk is het? Wat voor persoon werkt daarmee? In Fabric kun je bijvoorbeeld vrij makkelijk dingetjes aan elkaar klikken, is die leercurve misschien wat kleiner, waardoor je dus ook sneller een datateam neer kunt zetten. Terwijl in Databricks dat wat complexer kan zijn, en ook het opzetten van zo'n platform kan wat complexer zijn, omdat je heel flexibel bent. Dus dat is aan de ene kant een voordeel, dat je heel flexibel bent in Databricks. Je kunt eigenlijk alles wat je kunt bedenken instellen. Denk aan je compute, je storage. Je kunt nog bepalen waar je je storage neerzet. Dus stel je hebt ergens anders iets staan, dan kun je daar ook naartoe linken. Allemaal heel flexibel, maar dat zorgt er dus wel voor dat je best wel veel moet configureren. Dus dat kan een nadeel en een voordeel zijn. En dat is denk ik het grote verschil. Dus Databricks focust meer op de data engineering, dus meer de engineer. Terwijl Fabric en de andere platformen denk ik meer focussen op de analyticskant, dus meer het gebruik van de data.

Auke Derksen

Ja, dat denk ik ook. Dus ik denk bijvoorbeeld: Fabric is meer all-round en Databricks is in die zin meer gespecialiseerd. En precies wat jij zegt, dat kan een vloek en een zegen zijn. In Fabric kun je bijvoorbeeld niet heel erg instellen hoe je je clusters precies wil en wat je er allemaal mee wil doen. En als je hele zware machine learning wil gaan doen, dan denk ik ook niet dat Fabric het allerbeste platform is, en dat Databricks dan weer veel fijner is.

Cathy Tol

Maar aan de andere kant kan dat in Fabric dus ook een voordeel zijn. Want misschien wil je wel helemaal niet dat je mensen daar rekening mee hoeven te houden.

Janna Berkhout

Ja, of heb je de mensen niet. En dan is het fijn als alles voor je gemanaged wordt.

Pieter Koenis

Jazeker. Stel, qua learning curve: Databricks de steilste?

Cathy Tol

Ik denk het wel, ja.

Auke Derksen

Zou ik ook zeggen, ja.

Pieter Koenis

En daarna, als we van steil naar vlak gaan? Google de vlakste?

Janna Berkhout

Google Cloud kan ook best wel ingewikkeld worden om op te zetten.

Cathy Tol

Omdat je dus te maken hebt met al die verschillende tools die je wel of niet gebruikt.

Janna Berkhout

Ja, er is heel veel documentatie over, maar wat ik heb gelezen is dat de support ook niet heel goed is. Dus het is soms lastig, zeker als je tegen dingen aanloopt, om het recht te breien.

Auke Derksen

Ja, ik denk ook wel, ik zit een beetje tussen Fabric en Snowflake te denken: wat is dan makkelijker? Ik denk dat het uiteindelijk natuurlijk ligt aan wat je doet. Maar ik denk dat Snowflake nog net iets makkelijker is om mee te beginnen dan Fabric, omdat Fabric net wat meer instellingen vraagt en toch weer groter is, dus daardoor ook weer indrukwekkender. Dan moet je ook weer keuzes maken. Dus dat maakt het net weer wat ingewikkelder, maar het is toch nog wel vrij toegankelijk. Vooral als je al in de Microsoft-wereld zit. Dan ken je de UI, je kent de knoppen, Power BI kent iedereen natuurlijk, onderdeel van Fabric. Dus ik denk dat het daar weer veel wint.

Cathy Tol

En ook aan de gebruikersgroepen en zo, die kun je in Fabric gewoon één op één overnemen en gelijk gebruiken. Dus dat maakt het een stuk makkelijker.

Pieter Koenis

En als je nou van Databricks het ene punt moet noemen waar het het allersterkste in is?

Cathy Tol

Engineering.

Pieter Koenis

Ja, dus de flexibiliteit.

Cathy Tol

De flexibiliteit. Dus aan de ene kant de flexibiliteit van het gebruik van het platform, maar ook de flexibiliteit in hoe je je code schrijft.

Pieter Koenis

Dus je noemt dat engineering, maar dat is eigenlijk ook gewoon de vraag of je organisatie dat wel of niet nodig heeft, toch?

Cathy Tol

Ja, het kan ook zijn dat je het onnodig complex maakt.

Auke Derksen

Ja, dat kan zeker.

Cathy Tol

Misschien heb je het wel helemaal niet nodig.

Auke Derksen

Precies.

Pieter Koenis

En van Snowflake, waarvan je zou zeggen: dit is echt het allersterkste?

Auke Derksen

Ja, ik denk hun warehousing en wat je daarmee kan doen, dat is echt denk ik het allersterkste van Snowflake. Dat dat gewoon out of the box meteen draait, supersnel is, heel snel dingen op en af kan schalen. Als je een hele zware query hebt, gooi je hem omhoog, draait die query, zet je hem weer naar beneden. En je hebt wat je nodig hebt. Dus die flexibiliteit en het gebruiksgemak en de snelheid.

Cathy Tol

Nou, en zonder opstarttijd.

Auke Derksen

En zonder opstarttijd. Want dat is misschien een klein beetje een technisch ding, maar je hebt natuurlijk altijd die compute, al die resources nodig. Snowflake managet dat allemaal voor jou. Dus, wat verkopen ze, binnen één of drie seconden heb je dat beschikbaar en kun je gaan. Dat is natuurlijk superhandig als je bezig bent.

Cathy Tol

Andere platformen bieden dat ook wel aan. Dan bieden ze het aan als serverless compute, maar daar betaal je dan weer extra voor.

Auke Derksen

Of het is niet zo snel. Maar goed. Maar dat vind ik wel echt mooi van Snowflake, ja.

Pieter Koenis

Van Google Cloud Platform, vooral de e-commerce.

Janna Berkhout

Ja, dus wat je met e-commerce vaak hebt, is een stream aan eventlogdata uit je website. En dat zijn echt bakken en bakken. Laat staan als je meerdere websites hebt met heel veel gebruikers, die allemaal interacteren met je website, elk klikje, whatever, alles wordt gelogd. En dat gaat supersnel en dat moet allemaal worden opgeslagen. Daar is Google Cloud echt heel goed in. Het schaalt ook automatisch op, dus als er meer mensen naar je website komen, dan wordt het nog steeds opgeslagen. Het enige is dat als je dus zelf de event tracking niet goed neerzet, dan wordt er ook heel veel troep opgeslagen. Het kan heel snel te veel worden, en met ook veel artifacts in je data die je dan later weer moet zien op te schonen.

Auke Derksen

Fabric? Ik zou zeggen de veelzijdigheid van Fabric. Dat is wel echt een sterk punt. Ze noemen het soms ook wel een Zwitsers zakmes, dat geloof ik wel. Je kan eigenlijk alles wat je nodig hebt wel doen. Of het echt altijd het beste is, is natuurlijk het tweede, maar in feite zit alles wat je nodig hebt om iets met data te doen er wel op enige manier in. Ik denk dat dat een heel sterk punt is, dat je gewoon alles in één kan doen.

Pieter Koenis

Oké. En kan je zeggen dat elk platform een ideale datatoepassing of een ideaal dataproduct heeft om op te runnen? Je zei bijvoorbeeld: Fabric misschien iets minder machine learning, Databricks misschien iets beter. Is dat dan hét voor Databricks, machine learning-modellen runnen?

Cathy Tol

Niet alleen machine learning-modellen, maar ook die complexe data engineering-taken.

Pieter Koenis

Ja, oké. Dat is eigenlijk al wat jij net hebt genoemd voor de streaming van webdata.

Janna Berkhout

Ja, en het analyseren van die webdata. Daar zijn natuurlijk ook oplossingen voor bedacht: hoe visualiseer je dat? Heb je een makkelijk templatedashboard of whatever om dat allemaal in te zetten?

Pieter Koenis

En met Fabric, waar is het het best voor?

Auke Derksen

Ja, ik denk dashboarding, en in die zin de algemene zin van iets doen met je data. Dus geen AI, geen machine learning, maar gewoon: ik heb data, ik laad het in, ik moet er wat mee doen, ik bouw een rapportje, ik draai een klein modelletje. Die veelzijdigheid, daar is Fabric wel echt goed in. Generalistisch is Fabric heel goed. Heb je specialistische doelen, dan kan je misschien beter naar andere platformen kijken.

Pieter Koenis

Zou je dan meteen naar een ander platform kijken, of zou je dan denken: daar moeten we misschien iets naast zetten?

Auke Derksen

Dat is een hele goede vraag. Ik heb ook gezien dat dingen naast elkaar bestaan. En ik denk: als je daar een goede business case voor kan maken, dat dat ook prima kan. Alleen denk ik dat het daar ook weleens aan ontbreekt. Dus wat je dan krijgt, is dat het ene team in Fabric gaat werken, het andere team meer van Databricks houdt en het andere team meer van Snowflake. En we gaan het allemaal doen, maar allemaal niet op een manier waarop het perfect is ingeregeld. Dus dan betaal je eigenlijk juist heel veel voor allerlei dingen die je niet nodig hebt. Maar goed, als je zegt "ik heb iets met machine learning en dat wil ik graag in Databricks doen", dan kan je daar een goede business case voor maken en de rest bijvoorbeeld in Fabric houden. Al zou ik daar wel iets terughoudend in zijn, denk ik.

Pieter Koenis

Want Databricks kan je draaien op Azure.

Cathy Tol

Ja, dat is misschien ook goed om te noemen inderdaad. Fabric is echt verbonden aan Microsoft en die kun je alleen op Azure draaien. En Databricks kun je op eigenlijk alle drie de grote draaien.

Pieter Koenis

Net zoals Snowflake.

Cathy Tol

Net als Snowflake.

Pieter Koenis

En Google, ja, dat is wel duidelijk, denk ik. Dat is heel duidelijk, Google. Ja, ik weet niet of jullie iets in het nieuws hebben gezien de laatste tijd over Europese soevereiniteit, dat je graag je data in Europa wil hebben en houden.

Cathy Tol

Nee.

Pieter Koenis

Het leek me een interessant onderwerp om eens te bespreken. Je leest er heel veel over en we hebben het er al even kort over gehad. Nou ja, er valt veel over te zeggen. Maar wanneer is het nou relevant om te willen dat je data in Europa staat? En wanneer is het niet relevant? Wij hebben zelf als bedrijf niet zoveel data, maar het is wel een vraag die mij bezighoudt.

Auke Derksen

Ja, voor mij is dat een beetje een gewetensvraag, want eigenlijk zou je moeten zeggen dat het wat mij betreft altijd relevant is. En het gaat natuurlijk ook om je data, maar eigenlijk zelfs los van je data zou je daar zelf ook een mening over moeten vormen. Ook al heb ik alleen maar data die, bij wijze van spreken, iedereen gewoon naar buiten kan zien, en die dus helemaal niet relevant is. Maar dan nog is de diepere laag natuurlijk: wil ik dat dan? Kan ik dat dan wel op een Amerikaans platform zetten? Want dat maakt niet uit. Maar onze persoonsgegevens moeten ergens in Europa staan, en daar mag Amerika bijvoorbeeld, of China, niet bij komen.

Pieter Koenis

Misschien inderdaad nog even een vraag daarvoor. We hebben allemaal wel een idee, maar wat zijn nou echt de hoofdredenen om je data tegenwoordig niet bij een Amerikaans bedrijf te willen?

Janna Berkhout

Nou, je hebt de Cloud Act, die eigenlijk zegt dat je Europese gegevens beschermd zijn. Maar eigenlijk geldt dat alleen voor Europese bedrijven. En dat betekent dat als jij bij een Amerikaans bedrijf je data opslaat, ook al kies je misschien Europese servers, dat in principe de Amerikaanse overheid bij jouw gegevens mag kijken. Dus om die reden, en al helemaal met de huidige geopolitieke situatie, maar dit speelt natuurlijk al veel langer dan dat, roepen experts dat we meer onafhankelijk moeten zijn van Amerika en andere landen. Het is gewoon heel lastig, omdat ieder bedrijf zijn data bij een Europees bedrijf zou moeten stallen, maar er zijn zo weinig alternatieven.

Cathy Tol

Ik denk, tenminste, dat het iets genuanceerder ligt dan dat. Die Cloud Act stelt inderdaad dat het zou kunnen dat de Amerikaanse overheid je data op zou mogen vragen als ze daar een hele goede reden voor hebben. Dan is natuurlijk de vervolgvraag: wat zien zij als een goede reden? Vinden wij dat ook een goede reden? Maar dat betekent niet dat de hele Amerikaanse overheid de hele tijd in alle Europese data zit rond te snuffelen. Dus de vraag of het gebeurt, dat weten we niet. Het gaat voornamelijk om welk risico je wil lopen. En jij begon je vraag met of je je data in Europa zou moeten stallen. Dat is ook niet het enige stukje, denk ik. Het feit dat je data in Europa staat, is sowieso een goed idee als je in Europa bent. Want het is heel inefficiënt als je je data ergens op een heel ver circuit de wereld over stuurt. Het moet iedere keer de hele wereld heen en terug. Dus dat is sowieso al een goede reden om het wel in Europa op te slaan. Dan heb je het over het kiezen van een bepaalde regio, en dat kan bij alle cloud providers. Maar daarnaast hebben we de laatste tijd inderdaad veel in het nieuws gezien over soevereiniteit. En dat gaat meer over waar je data leeft. Dus dat gaat er deels over waar je data staat, maar ook operationeel, juridisch, technisch. En daar zitten heel veel gradaties in. Het is niet: ik wil van vandaag op morgen kunnen overstappen op een soeverein Europees dataplatform. Er zit nog zoveel meer tussen. Als je naar de hele groten kijkt, die zetten daar zelf ook stappen in. En je kunt dat dan weer opdelen in twee soorten, denk ik. Waarbij de een, dat is dan Amazon, een hele losse cloud in Europa zet, die staat ergens in Duitsland. Dat is een heel los, afgesplitst bedrijfsstukje, wel nog steeds van Amazon, maar dan is het dus wel iets moeilijker gemaakt om eventueel bij die data te kunnen. Dus wat zij bijvoorbeeld doen: het is sowieso los van het grote bedrijf, er werken alleen Europese medewerkers, dus die scheiding is gewoon heel groot. Dus zo'n eigen cloud zie je als een heel los, nieuw AWS-platform met zijn eigen controlplane. En daarnaast kun je dan bij bijvoorbeeld Microsoft en Google, die stellen gewoon wat meer regels op, of wat meer controles. Die gebruiken hetzelfde platform, eenzelfde Azure, eenzelfde Google, met gewoon wat meer beloftes erbij. En daar kun je dan ook voor kiezen. Maar dat is wel echt iets heel anders. En ze noemen het trouwens allebei... wat was het? Amazon heeft de AWS European Sovereign Cloud. En Microsoft heeft dan de Microsoft Sovereign Cloud. Maar het is wel goed om er rekening mee te houden wat dat dan precies is. Want het blijft het geval dat het nog steeds Amerikaanse bedrijven zijn, dus het valt nog steeds onder de Cloud Act. Dus of jouw data nou in Europa staat of niet, dat risico blijft. Het risico is alleen iets minder geworden, omdat ze niet direct bij je data kunnen.

Janna Berkhout

Ik zou zeggen: de enige reden om er niet over na te denken is als je misschien een opensourceproduct hebt waarbij iedereen toch al zicht heeft op je data, dan maakt het niet zoveel uit. Maar voor bijna alle overige bedrijven geldt dat je er wel even naar zou moeten kijken, denk ik.

Pieter Koenis

Ja. En de Amerikaanse platformen die we net hebben besproken, de grote platformen, maar dan met een Europese server, dat voldoet niet?

Cathy Tol

Nee, dan valt het dus nog steeds onder die Cloud Act. Het zijn nog steeds Amerikaanse bedrijven. Dus er is op dit moment eigenlijk geen direct alternatief voor de drie, vier grote waar we het net over gehad hebben, maar dan van een Europese cloud provider. Je kunt dat wel nabouwen natuurlijk. En ook dat gaat dan weer in allemaal stapjes, waarbij je bij ieder stukje van dat platform zelf zou moeten bedenken: ga ik dit van iemand afnemen, dus van een cloud provider, of ga ik het zelf doen? En als je cloud ziet als allemaal hele kleine bouwblokjes, kun je voor al die bouwblokjes afzonderlijk kiezen of je dat zelf gaat doen of afneemt. Als je het zelf doet, heb je het in eigen beheer, maar dat betekent dus ook dat je het zelf moet regelen. Terwijl als je het afneemt, dan kun je er ook van uitgaan dat het op een bepaalde manier veilig gehouden wordt.

Pieter Koenis

Ja, dus een platform als Fabric, maar dan van een Europees bedrijf, daarvan zeg je: dat is er op dit moment niet.

Cathy Tol

Nee, op dit moment in ieder geval niet.

Pieter Koenis

Wat is er wel qua bedrijven? Want ik heb weleens gehoord, Scaleway, dat hoor je veel.

Cathy Tol

Dus dat is een cloud-aanbieder die allemaal van die kleine clouds, of klein, het kan klein tot groot zijn, cloudblokjes aanbiedt die je af kunt nemen. En daar kun je dan dus zelf weer voor kiezen welke blokjes je wel en niet afneemt en hoe je die aan elkaar koppelt. Maar dat is dus al wat meer werk dan dat je zegt "ik wil een Fabric of ik wil een Databricks", waar al die blokjes, waarschijnlijk dezelfde blokjes, al voor je aan elkaar gekoppeld zijn.

Janna Berkhout

Amerikaanse bedrijven hebben natuurlijk jarenlang een soort monopolie gehad en heel veel tijd om te ontwikkelen, eigenlijk weinig concurrentie van Europese bedrijven. En ik denk dat daar nu wel een switch in gaat komen.

Cathy Tol

Zeker. Ik denk dat die noodzaak ook gewoon nog niet gevoeld is.

Pieter Koenis

En je zegt: het zijn wel cloud providers die platformen aanbieden, maar niet per se dataplatformen. Bieden zij dan zelf wel tools aan, of moet je dan bijvoorbeeld het platform gebruiken en daar open source tools op zetten, et cetera?

Cathy Tol

Dat kan beide. Je kunt er bijvoorbeeld voor kiezen om een managed database af te nemen, dan heb je iets om je data op te slaan. Maar je kunt er ook voor kiezen om een VM af te nemen en dan ga je daar zelf je database op hosten. Dus ook daar zijn dan weer gradaties in, in hoeveel je zelf wil doen en hoeveel je af wilt nemen.

Pieter Koenis

Even voor de begrippenlijst: VM staat voor?

Cathy Tol

Virtual machine.

Pieter Koenis

Ja, heel goed. Oké. Wat ik wel interessant vond, wat je heel kort even hebt aangestipt maar wat misschien interessant is om nog even te delen: je data staat misschien in Europa, maar gezien het feit dat je veel zelf moet doen, is je data dan veiliger, ja of nee?

Cathy Tol

Dat is een hele goede vraag. Het kan veiliger, maar alleen als je het echt goed doet. Dus je moet dan ook zelf overal aan denken. Je moet alles helemaal goed dichtgezet hebben. Dus een heel klein foutje kan hele grote gevolgen hebben.

Auke Derksen

Ja, dat zijn juist ook meerwaarden van bijvoorbeeld een Fabric. Daar zit iets in wat managed private endpoints heet. Dat is een concept dat jouw Fabric koppelt aan een andere cloud resource, en dat dat volledig afgeschermd van het publieke internet bij Microsoft gebeurt. Nou, dat zijn gewoon mooie services. Het zit in de naam: managed, het wordt allemaal voor je gemanaged. Dat zijn allemaal dingen die je anders zelf moet gaan bedenken: hoe ga ik dat dan op een veilige manier doen? En als je heel veel losse stukjes hebt die je allemaal op een bepaalde manier aan elkaar moet knopen, kan het zijn dat je daarmee dus weer meer risico creëert dan dat je dat bij zo'n Fabric zou doen en in één zo'n platform zou stoppen. Het hoeft niet, ik bedoel, wat Cathy zegt. Maar we hebben ook weleens dingen gezien waarvan je denkt: ja, als we het zo in elkaar draaien, dan is het allemaal niet zo handig.

Pieter Koenis

Nee, precies. Dus als je het op hetzelfde niveau wil doen qua veiligheid, qua functionaliteit, et cetera, dan heb je in ieder geval wel een redelijk zwaar engineeringteam nodig.

Cathy Tol

Ja, dan heb je wel een klein legertje, heel specialistische mensen nodig. En van de cloud af is dat nog een optie. Dat kan ook, maar dan heb je hetzelfde probleem. Dan komt het deels op hetzelfde neer, plus je bent dan zelf ook nog eens verantwoordelijk voor het bijhouden van al die machines. Dus je koopt machines in, die komen gewoon met de post binnen, je pakt ze uit, en dan moet je nog eens beginnen met ze neerzetten, in een stopcontact stoppen, aan elkaar prikken, en dan maar zorgen dat ze samen in een cluster kunnen draaien, een OS erop installeren, precies dat soort dingen. Maar je moet er ook rekening mee houden dat er inderdaad brand kan uitbreken, dus je wilt het het liefst op twee of drie extra plekken neerzetten. Je moet aan koeling denken, je wilt je belangrijke machines niet te warm, niet te koud. Ja, zomaar door. En dit geldt dus voor al die stukjes, al die stapjes die er tussenin zitten.

Pieter Koenis

Ik dacht: we komen er wel even uit. Maar jammer.

Auke Derksen

Het lijkt toch altijd weer complexer. Ik denk dat de instelling moet zijn: het kan wel. Het kan wel.

Cathy Tol

Het ligt er alleen aan welke risico's je zelf wilt nemen. Dus wat je wilt, hoe groot je data is.

Pieter Koenis

En hoeveel geld je ervoor over hebt.

Cathy Tol

Ja, ook.

Pieter Koenis

Risico's en kosten natuurlijk. Een kostenafweging.

Cathy Tol

Ja, precies.

Pieter Koenis

Oké, mooi. Nou, we zijn bijna door de tijd heen. Stel je voor, ik ben CIO en ik wil aan de slag met AI. Welk platform moet ik nou kiezen?

Auke Derksen

Ik denk niet Fabric.

Cathy Tol

Het ligt eraan wat je met AI wil doen.

Janna Berkhout

Misschien een Snowflake voor de makkelijke instap, Databricks voor de iets complexere dingen.

Auke Derksen

En ik denk dat Fabric zelf ook wel zou kunnen passen hoor, maar het ligt echt aan de use case.

Pieter Koenis

Ik had eigenlijk verwacht dat het antwoord zou zijn: we kijken eerst even naar de architectuur.

Auke Derksen

Dat is altijd zo.

Pieter Koenis

Dat sowieso. Het was een strikvraag. Ik wil jullie nog vragen om de datatip, of jullie iets willen delen met de luisteraars. Een inspiratiebron voor jullie. Het mag een tool zijn, een boek, een blog, een framework, een persoon om te volgen, whatever, dat mooi is om te delen met de luisteraar om mee te geven.

Cathy Tol

Ja, nou, denk vooral eerst zelf even goed na over wat je wel en niet wilt. En laat je ook vooral niet gek maken door al die verschillende tools die er zijn.

Pieter Koenis

Dat is een mooie tip. Heel goed.

Janna Berkhout

Ik zou zeggen: kijk ook naar wat er open source beschikbaar is. Er wordt heel veel ontwikkeld, en echt niet allemaal door de drie grootste datatechnologiebedrijven van de wereld. Heel veel mensen doen het ook open source, en vaak is dat zelfs nog beter.

Auke Derksen

Ja, oké. Ik heb deze keer een hele praktische bedacht: ga het gewoon proberen, want alle grote platformen hebben gratis trials. Daar kun je je heel makkelijk voor aanmelden. Fabric heeft dat, Snowflake heeft dat, Databricks heeft dat ook, toch, Cathy? Probeer het gewoon. Doe alle drie, pak een use case en kijk gewoon hoe het werkt. Doe dat in het begin, dan denk ik dat het heel erg helpt bij de keuze.

Pieter Koenis

Top. Nou, mooie tips, daar kunnen we mee verder. Bedankt voor jullie input, alle drie. En de luisteraar bedankt voor het luisteren. Vond je dit een leuke podcast? Dan waarderen wij het wanneer je deze podcast liket en volgt, dan kunnen anderen deze podcast ook sneller vinden. Daarnaast ben ik benieuwd naar feedback, vragen en ideeën van onze luisteraars. Je kunt die het makkelijkst delen via LinkedIn: connect met mij, Pieter Koenis, en stuur me een berichtje. Of mail naar podcast@alwaysbelearning.nl. Graag tot de volgende.

Veelgestelde vragen

Wat is het verschil tussen een data warehouse, een data lake en een data lakehouse?

Een data warehouse is de klassieke opslag voor gestructureerde data, bedoeld om te queryen en over te rapporteren. Een data lake is de onderliggende opslag waar álles in kan landen — gestructureerd, semi-gestructureerd en ongestructureerd zoals foto's en video's. Een lakehouse combineert beide: je kunt er zowel gestructureerde als ongestructureerde data in verwerken en op dezelfde manier benaderen, vaak via een protocol als Delta Lake.

Hoe kies je het juiste dataplatform voor je organisatie?

Begin niet bij wat je toevallig al hebt (in Nederland vaak Microsoft), maar bepaal eerst je doel en je architectuur. Kijk daarnaast naar het soort organisatie en de mensen die je hebt: wil je low-code werken of heb je hardcore developers, en hoeveel kennis is er in huis? Het ene platform is nu eenmaal sterker in het een dan het ander, dus laat je keuze daarop aansluiten in plaats van op gewoonte.

Is je data veilig op een Amerikaans platform met een Europese server?

Niet per se. Door de Amerikaanse Cloud Act kan de Amerikaanse overheid in principe gegevens opvragen bij Amerikaanse bedrijven, ook als de servers in Europa staan. Data in Europa opslaan is sowieso verstandig voor efficiëntie en regiokeuze, maar voor echte soevereiniteit is er momenteel nog geen volwaardig Europees alternatief voor de grote platformen — de 'sovereign clouds' van Amazon en Microsoft verkleinen het risico, maar nemen het niet helemaal weg.

Waar is elk platform het sterkst in?

Snowflake blinkt uit in warehousing: out of the box, supersnel op- en afschalen, zonder opstarttijd en platform-agnostisch. Databricks is het sterkst in data engineering en machine learning dankzij zijn flexibiliteit, maar heeft de steilste leercurve. Fabric is de generalist ('Zwitsers zakmes') en ideaal als je al Microsoft gebruikt, terwijl Google Cloud/BigQuery uitblinkt in e-commerce en marketing door de naadloze koppeling met Google-producten.

Gerelateerde afleveringen

Microsoft Fabric: De lessen & ervaringen uit 3 implementatieprojecten