Extraction, Transformation and Load

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Extraction, Transformation and Load, afgekort ETL, is een groep technologieën die veelal gebruikt worden bij de koppeling tussen systemen, waarbij er gestreefd wordt naar een minimale technische en semantische koppeling. Het is een batchproces dat regelmatig gebruikt wordt.

  • Extract: data uit een bron ophalen en uitpakken
  • Transform: opgehaalde data omzetten volgens regels en opzoektabellen of combinaties maken van data uit verschillende bronnen
  • Load: de data wegschrijven op een gewenste plaats

Volgorde[bewerken]

Zoals de afkorting ETL aangeeft, bestaat het uit drie processen: extract, transform en load. Deze processen gaan als volgt te werk:

Extract[bewerken]

Het eerste deel van een ETL-proces haalt de data uit de bronsystemen. De meeste datawarehousingprojecten gebruiken data van verschillende bronsystemen en elk apart systeem kan ook een verschillend formaat/dataorganisatie gebruiken. Gebruikelijke databronformaten zijn relationele databases en flat files, maar kunnen ook niet-relationele databasesystemen gebruiken zoals IMS en andere datastructuren zoals VSAM en ISAM. Extraheren vormt de data om naar een formaat voor het proces van transformatie. Een intrinsiek deel van de extractie is het ontleden van de geëxtraheerde data, wat in een controle resulteert of de data een verwacht patroon of structuur beantwoordt. Deze controle houdt vooral van snelle of die kwalitatief is en geen holle onregelmatigheden bevat. Indien dit niet het geval is, wordt de data volledig niet toegelaten. Dit wordt ook wel eens het opschonen van data genoemd.

Transform[bewerken]

Het omvormen van data past een serie van regels of functies toe op de geëxtraheerde data van de bron om de data af te leiden om geladen te worden naar het einddoel. Sommige databronnen zullen heel weinig of zelfs geen manipulatie nodig hebben. In andere gevallen zal er één of meer transformatie types toegepast moeten worden om aan de zakelijke en technische benodigdheden van het einddoel te beantwoorden:

  • Enkel sommige kolommen selecteren om te laden
  • Gecodeerde waarden vertalen (bijvoorbeeld het bronsysteem gebruikt andere waarden dan het warehouse voor bepaalde delen), dit gebeurt automatisch
  • vrije vormen van data coderen (bijvoorbeeld waarde "Mannelijk" naar a en "Meneer" naar b mappen)
  • een nieuwe berekende waarde afleiden, dit is een waarde die bestaat uit een bewerking en twee bekende variabelen, maar het warehouse kent deze nieuwe waarde niet
  • data van verschillende bronsystemen samenvoegen
  • verschillende rijen samenvatten naar één rij
  • kolommen splitsen in verschillende kolommen
  • enige vorm van complexe datavalidatie toepassen
  • transponeren of pivoteren van data

Load[bewerken]

De laatste fase laadt de data in het einddoel (meestal de datawarehouse). Naargelang de eisen van de organisatie, kan dit proces ver gaan. Sommige datawarehouses kunnen elke week bestaande informatie overschrijven met aangepaste, bijgewerkte data, terwijl andere datawarehouses nieuwe data in een tijdstabel-vorm toevoegen (bijvoorbeeld elke minuut). De data wordt vervangen op strategisch gekozen momenten, vooral naar behoefte van het bedrijf. Meer complexe systemen kunnen een geschiedenis bijhouden en een spoor auditten van alle veranderingen van de data, die geladen was in het datawarehouse.

Gebruik[bewerken]

Data-uitwisseling[bewerken]

Data wordt van het ene systeem naar het andere gestuurd en omgekeerd. Dit kan voorkomen bij grote ERP-systemen, waar een verkoop binnenkomt en waar de data die bewerkt moet worden, naar de bron doorgestuurd wordt. Deze bron bewerkt de data en stuurt die terug naar het eerste systeem (met een update).

System Migration en Legacy Conversion[bewerken]

Data wordt gestuurd van het ene systeem naar het andere. Dit is een eenmalig proces van hoge complexiteit dat vooral dient om oude batchsystemen om te vormen en andere systemen in het warehouse te implementeren.

Upgraden van infrastructuur[bewerken]

Hierbij wordt de datastructuur veranderd. Het terugmigreren van data hoeft maar een keer.

Instantieconsultatie[bewerken]

Hierbij wordt de ICT-complexiteit verkleind door systemen en platforms weg te doen. Het is een eenmalig proces van hoge complexiteit.

Externe links[bewerken]