Définition de la transformation des données

La transformation des données consiste à convertir des données d’un format à un autre, en général du format d’un système source vers le format requis par un système cible. La transformation des données est utilisée dans la plupart des tâches d'intégration des données et de gestion des données, telles que le nettoyage des données/la préparation préalable des données et l'entreposage des données.

La transformation des données est une étape du processus ELT/ETL, qui peut être « simple » ou « complexe » selon les types de changements que les données doivent subir avant d’atteindre leur destination cible. Le processus de transformation des données peut être exécuté automatiquement, manuellement, ou en associant ces deux modes.

Aujourd’hui, la réalité des big data signifie que la transformation des données est plus importante que jamais pour les entreprises. Un nombre toujours plus grand de programmes, d’applications et d’appareils produisent des volumes importants de données en continu. Et avec une telle abondance et diversité de données et de sources, il existe toujours un risque de non-compatibilité. C’est là qu’intervient le processus de transformation des données : il permet aux entreprises et organisations de convertir des données provenant de n’importe quelle source dans un format pouvant être intégré, stocké, analysé et enfin exploré pour obtenir une veille économique (ou business intelligence).

L’ETL (Extract/Transform/Load) est une approche d’intégration qui recueille des informations auprès de sources distantes, les transforme en formats et styles définis, puis les charge dans des bases de données, sources de données ou entrepôts.

L’ELT (Extract/Load/Tansform) extrait également des données à partir d’une ou plusieurs sources distantes, mais les charge ensuite dans l’entrepôt de données cible sans changement de format. Dans un processus ELT, la transformation des données s’effectue au sein de la base de données cible. L’ELT nécessite moins de sources distantes, uniquement leurs données brutes et non préparées.

Source : https://fr.talend.com