MENU
THEMES

Data warehouse, data mart

Publié le: 20/11/2002  |  Par: Guideinformatique  

Les applications de Business Intelligence, décisionnels, CRM... peuvent être capables d'extraire les informations qui leur sont nécessaires dans les fichiers de production de l'entreprise. Toutefois, les données y sont souvent sous des formats différents et, surtout, elles ne sont pas facilement exploitables, car codifiées ou incomplètes.
On constitue donc des "entrepôts de données" où les applications décisionnelles pourront puiser librement.

Principe du data warehouse

Le data warehouse est utilisé pour accumuler sur une longue période les données opérationnelles qui seront exploitées par les outils de reporting, d'analyse et de prise de décision, pour suivre l'activité ou déterminer des tendances.
 

Contenu du data warehouse

Le data warehouse, ou entrepôt de données, est utilisé comme stockage intermédiaire des données issues des applications de production et rassemble une copie des données vitales de l'entreprise. Il peut ainsi contenir les commandes, la facturation, la production, les prospects... Il ne s'agit donc pas d'un stockage documentaire, de type KM ou CM.
Ces données sont :

  • intégrées et parfois agrégées, c'est-à-dire qu'elles sont complètes et directement exploitables (et non sous la forme de code ou de liens à résoudre avant exploitation), on utilise pour cela un ETL.
  • non volatiles, elles ne peuvent pas être supprimées après exploitation.
  • historisées, c'est-à-dire que les données sont positionnées dans le temps, pour permettre l'étude de leur évolution.

 Ces données sont donc généralement impropres à une utilisation de production ultérieure, cependant certaines peuvent être réinjectées dans des processus opérationnels.. 

Le data warehouse correspond à un projet au niveau de l'entreprise. Pour le constituer on réunira une description des informations disponibles dans l'entreprise: les métadonnées.

  Data warehouses et data marts

Le data warehouse d'entreprise est un système unique pour toute l'entreprise capable de traiter de tous les thèmes. C'est un gisement de données mis à disposition de tous. Par exemple, chez un opérateur téléphonique, on met à disposition les CDR (call detail record - détails des appels téléphoniques) pour tous les départements de l'entreprises.
Un data mart est un gisement de données constitué pour une partie de l'entreprise, généralement un département, qui structure et agrège les informations en fonction de son besoin et donc ne conserve pas les détails qui ne lui sont pas nécessaires.
Donc nous pouvons avoir plusieurs data warehouses dans une entreprise traitant de thèmes différents (achats, facturation, logistique, production...), mais si deux gisements traitent d'un même thème il s'agit alors de data marts.

  Combien de data warehouses

Qui fournit les données ? quand ? à quel niveau de détail ?
Le data warehouse n'est pas forcément un projet d'entreprise. Il est souvent plus simple politiquement de régler les problèmes département par département et de n'investir que sur les informations dont on aura besoin. Par exemple, chez l'un des leaders de l'assurance, il y a 60 bases de données
Mais les départements métier ont besoin des informations de leur propre métier mais aussi des autres départements et le niveau de suivi détaillé n'est pas le même d'un département à l'autre.
Si l'on prend exemple dans le monde des télécommunications, tous les opérateurs stockent les détails des appels - CDR (Call Detail Record). Cette information intéresse :

  • le marketing : pour connaître les clients et proposer des offres adaptées,
  • les gestionnaires du réseau : pour voir comment se répartit le trafic (suivant les heures, les jours, les régions...).
  • les financiers : pour prévoir la trésorerie, les investissements, les résultats

Pour ces raisons, les experts conseillent généralement de constituer un data ware house d'entreprise, grand gisement de données détaillé dans un seul et même environnement pour répondre à tous les besoins des métiers.

  Les étapes du décisionnel

La maturité des décisionnels peut être illustrée en cinq étapes.

Par exemple dans le domaine logistique, au niveau de toutes les opérations liées au transport et à l'entreposage :

  • étapes 1 et 2 : Que s'est-il passé ? Pourquoi ? Mode Réactif : suivi des stocks, des ordres, des capacités de transport au niveau de chaque site, analyse dynamique des flux, des ressources, ...
  • étapes 3 : Que va-t-il se passer ? Mode Préactif : visibilité et projection de la situation au niveau de l'ensemble des sites, dans un mode planning, simulation,
  • étape 4 : Qu'est-il en train de se passer ? Mode Interactif : vision globale et détaillée des situations en temps réel en prenant en compte tous les acteurs y compris les partenaires extérieurs dans un schéma collaboratif,
  • étape 5 : Qu'est-ce que je voudrais qu'il se passe ? Mode Proactif : actions d'optimisation technique et financière de la prestation logistique et des niveaux de stocks.
Capacité des data warehouses

Vouloir rassembler les données opérationnelles dans un seul data warehouse génère des contraintes techniques lourdes :

  • la capacité de stockage qui peut dépasser les 100 Tera octets pour les plus grosses bases. Et même si l'on ne conserve les données que sur une certaine période (un an suffit généralement), la quantité de données à stocker et le niveau de détail souhaité ne feront que croître.
  • la capacité à traiter des requêtes de plus en plus complexes et de plus en plus nombreuses (la rançon du succès).
  • l'alimentation en continue des données (pour pouvoir analyser des données les plus fraîches possible).

 Le parallélisme inconditionnel suppose un système massivement parallèle mais aussi des caractéristiques logicielles spécifiques de la base de données. 

On met également en place des fonctionnalités dites ETLT (Extract Transform Load Transform) pour valoriser les données déjà intégrées.
 
Merci à Michel Bruley, directeur marketing Teradata, pour son aide dans la refonte de cette fiche.

Dossiers dans la même thématique ...

Réagir à cet article