21 avr. 2014

Contexte 1 - Décisionnel : chargement de DataWarehouse/DataMart


La principale utilisation que l’on peut faire de PowerCenter est le Décisionnel : chargement de DataWarehouse/DataMart.
Il s’agit ici de l’utilisation classique de l’ETL Extract Transform & Load ; extraction, transformation et chargement des données à partir d’un ou plusieurs systèmes sources vers un DataWarehouse et/ou DataMart dédiés à des opérations d’analyses et de reporting d’aide à la décision.

Nous citons l’exemple du chargement quotidien d’un DataWarehouse avec des données CRM provenant de deux systèmes de gestion d’abonnés; un système historique en cours de migration et un nouveau système récemment déployé. Chacun des deux systèmes gérant un périmètre des abonnés. Les données chargées et historisées dans le DataWarehouse/DataMart servent à des fins d’analyse prédictive dataminig (scoring…), ciblages marketing et reporting divers.
Outre la restitution et l’analyse multidimensionnelle, un des objectifs métiers du DataWarehouse pourrait être la mise à disposition d’un référentiel client unique des clients gérés dans les systèmes source (contenant les adresses emails et courriers des clients avec typage, validité, qualification des adresses…) destinés à une utilisation dans un outil de conception des sollicitations marketing.


Informatica Powercenter vient se positionner dans la couche ETL d’acquisition des données puisqu’il permet d’extraire les données de plusieurs types de sources (bases de données, fichiers plats txt, csv, XML…), de transformer ces données (transcodages, agrégations…) et de les charger dans le modèle de donnée conçu pour les contenir (entité-associations et/ou multidimensionnel).


Spécificités des sources de données

Les systèmes sources dans l’alimentation DataWarehouse peuvent être de différents types. Nous en citons quelques-uns :
  • ERP - Entreprise Resource Planning
  • Applications CRM
  • Progiciels de gestion (ex : progiciel de gestion des contrats d’assurance)
  • Applications web (ex : Applications Web de gestion des abonnements à un service)
  • Échanges avec le Datamining : Dans la plupart des cas, les dataminers se basent sur les données du DataWarehouse pour effectuer leurs analyses et calculs (scores…etc.), ils peuvent effectuer des extractions directement dans le DataWarehouse, ou exploiter des fichiers dits « publications » envoyés et planifiés selon le besoin (via spool SQL ou ETL). Les résultats des calculs des dataminers sont intégrés dans le DataWarehouse par la suite via l’ETL
  • Échanges avec d’autres applications (ex : intégration des retours des outils de gestion de campagnes marketing)

Deux modes sont utilisés pour extraire les données d’un système source, le mode PUSH : où le système source « pousse » les données, en général sous forme de fichiers plats  (généralement csv) vers une zone partagée de stockage. Dans ce mode, l’accès aux bases de données directement par l’ETL est restreint. Néanmoins, Informatica pourrait être utilisé par les administrateurs du système transactionnel pour fournir les fichiers plats.    
L’autre mode, est le mode PULL, ou le DataWarehouse, via l’ETL, se charge de l’extraction des données directement du système source. Avec ce mode aussi, le premier stockage des données pourra se faire dans des fichiers plats en attendant la transformation des données.

Par ailleurs, les traitements d’extraction des données à partir des systèmes sources sont souvent planifiés pour être exécutés pendant la nuit et/ou en weekend. Ceci dans un but de ne pas perturber l’utilisation du système et aussi pour des raisons de performances ; réservation d’un « créneau » pendant lequel seuls les batchs d’extraction ETL tournent.

2 commentaires:

  1. Article intéressant sur le rôle fondamental de PowerCenter dans les processus ETL pour le Business Intelligence. En le lisant, je ne peux m'empêcher de penser à la manière dont SAP BW/4HANA pourrait compléter ou même optimiser ces processus. Conçu spécifiquement pour le traitement en mémoire avec SAP HANA, SAP BW/4HANA offre une vitesse et une efficacité remarquables dans la manipulation de grands volumes de données. Cet aspect est crucial, surtout lorsqu'il s'agit de l'intégration de systèmes hérités et nouveaux, comme dans l'exemple du CRM. L'efficacité dans le chargement et l'analyse des données peut transformer de manière significative les capacités prédictives et de prise de décision dans une entreprise.

    RépondreSupprimer