Problème de l'agrégat et des data warehouses

FondamentalProblème posé par le décisionnel et résolu par les data warehouses

  • Décision vs Gestion

  • Agrégat vs Accès ciblé

  • Historisation vs Transaction

Définition

Un système décisionnel est une application informatique destinée à effectuer des exploitations statistiques sur la base des données existantes dans une organisation dans le but d'aider à la prise de décision.

  • Le modèle relationnel est peu performant pour les agrégats qui portent sur de nombreuses tables car il est nécessaire de faire des jointures qui sont coûteuses.

  • La rigueur du modèle relationnel n'est pas nécessaire pour des traitement statistiques qui sont tolérants aux incohérences isolées.

  • Les volumes de données peuvent devenir importants si l'on conserve l'historique de toutes les transactions.

ExempleAgrégat

Une étude statistique peut rapidement concerner plusieurs dizaines de tables dans une base de données relationnelles et donc exiger autant de jointures.

ExempleTolérance aux incohérences

Il n'est pas acceptable de perdre des données en contexte transactionnel (je ne sais pas si une personne existe ou pas), mais ce n'est pas important si je travaille sur une moyenne (l'âge moyen des personnes dans mon système ne sera pas impacté s'il me manque un enregistrement).

ExempleVolume de données

Si le système produit 1.000 enregistrements chaque jour et que je les conserve pendant 3 ans, j'ai 1.000.000 de lignes (mon système change d'ordre de grandeur).

  • Un data warehouse est une base de données dédiée à un système décisionnel.

  • Les problèmes d’agrégat, de tolérance aux incohérences et de volumes de données sont adressés par les data warehouses.

  • Pour cela les data warehouses se basent sur des modèles fortement redondants et potentiellement localement incohérents.