Les applications de Business Intelligence, décisionnels, CRM... peuvent être capables d'extraire les informations qui leur sont nécessaires dans les fichiers de production de l'entreprise. Toutefois, les données y sont souvent sous des formats différents et, surtout, elles ne sont pas facilement exploitables, car codifiées ou incomplètes.
On constitue donc des "entrepôts de données" où les applications décisionnelles pourront puiser librement.
Principe du data warehouse
Le data warehouse est utilisé pour accumuler sur une longue période les données opérationnelles qui seront exploitées par les outils de reporting, d'analyse et de prise de décision, pour suivre l'activité ou déterminer des tendances.
Le data warehouse, ou entrepôt de données, est utilisé comme stockage intermédiaire des données issues des applications de production et rassemble une copie des données vitales de l'entreprise. Il peut ainsi contenir les commandes, la facturation, la production, les prospects... Il ne s'agit donc pas d'un stockage documentaire, de type KM ou CM.
Ces données sont :
Ces données sont donc généralement impropres à une utilisation de production ultérieure, cependant certaines peuvent être réinjectées dans des processus opérationnels..
Le data warehouse correspond à un projet au niveau de l'entreprise. Pour le constituer on réunira une description des informations disponibles dans l'entreprise: les métadonnées.
Data warehouses et data martsLe data warehouse d'entreprise est un système unique pour toute l'entreprise capable de traiter de tous les thèmes. C'est un gisement de données mis à disposition de tous. Par exemple, chez un opérateur téléphonique, on met à disposition les CDR (call detail record - détails des appels téléphoniques) pour tous les départements de l'entreprises.
Un data mart est un gisement de données constitué pour une partie de l'entreprise, généralement un département, qui structure et agrège les informations en fonction de son besoin et donc ne conserve pas les détails qui ne lui sont pas nécessaires.
Donc nous pouvons avoir plusieurs data warehouses dans une entreprise traitant de thèmes différents (achats, facturation, logistique, production...), mais si deux gisements traitent d'un même thème il s'agit alors de data marts.
Qui fournit les données ? quand ? à quel niveau de détail ?
Le data warehouse n'est pas forcément un projet d'entreprise. Il est souvent plus simple politiquement de régler les problèmes département par département et de n'investir que sur les informations dont on aura besoin. Par exemple, chez l'un des leaders de l'assurance, il y a 60 bases de données
Mais les départements métier ont besoin des informations de leur propre métier mais aussi des autres départements et le niveau de suivi détaillé n'est pas le même d'un département à l'autre.
Si l'on prend exemple dans le monde des télécommunications, tous les opérateurs stockent les détails des appels - CDR (Call Detail Record). Cette information intéresse :
Pour ces raisons, les experts conseillent généralement de constituer un data ware house d'entreprise, grand gisement de données détaillé dans un seul et même environnement pour répondre à tous les besoins des métiers.
Les étapes du décisionnelLa maturité des décisionnels peut être illustrée en cinq étapes.
Par exemple dans le domaine logistique, au niveau de toutes les opérations liées au transport et à l'entreposage :
Vouloir rassembler les données opérationnelles dans un seul data warehouse génère des contraintes techniques lourdes :
Le parallélisme inconditionnel suppose un système massivement parallèle mais aussi des caractéristiques logicielles spécifiques de la base de données.
On met également en place des fonctionnalités dites ETLT (Extract Transform Load Transform) pour valoriser les données déjà intégrées.
Merci à Michel Bruley, directeur marketing Teradata, pour son aide dans la refonte de cette fiche.