04 Juillet 2009    

Gouvernance

Solutions

Technologies

Marchés

Data mining

BI, décisionnel, SIG

 
 
 
 
 

Discipline et application qui combine, recherche dans les bases de données, Intelligence Artificielle et statistiques. Le data mining utilise ces techniques pour mettre en évidence des corrélations, des relations cachées et des tendances nouvelles en passant au crible de grandes quantités de données stockées dans les datawaherouses. Contrairement aux méthodes de pilotage statistiques traditionnelles qui collationnent des données suivant des méthodes pré-établies, le data mining applique ses analyses à des données existantes.

But du data mining

Le data mining porte sur des données :

  • d'un volume considérable (souvent plusieurs téra-octets),
  • hétérogènes, parfois incompatibles.

Le data mining est essentiellement employé dans le marketing et la vente pour :

  • prévoir et suivre les ventes, les stocks, les approvisionnements,
  • établir une segmentation pour cibler des opérations de marketing,
  • fidéliser les clients (anticipation des départs, choix des clients à fidéliser, différentiation des offres),
  • évaluer le risque client,
  • cibler des niches de marché,
  • pour définir des comportements de population (acheteurs, internautes...)

...mais aussi pour :

  • suivre les indicateurs de production pour le contrôle de la qualité et la détection des défaillances,
  • pour la veille technologique.

Principe

Trois étapes théoriques sont suivies :

  • exploration,
  • construction d'un modèle ou définition d'une structure,
  • validation du modèle.

Suivant le type de données on peut répéter le processus par itérations pour obtenir un modèle jugé fiable.
Une interface soignée est mise en œuvre pour masquer la complexité de cette technologie aux utilisateurs finaux.

Algorithmes

"Des minorations sur ce nombre d'exemples existent et montrent l'optimalité à une constante multiplicative près de la borne supérieure fournie par le théorème de Vapnik et Chervonenkis." (Gérald Gavin, extrait de thèse), ce qui permet d'éclairer le lecteur...sur la simplicité relative du sujet.
Le data mining combine des méthodes statistiques et adaptatives (machine learning). Les modèles à la mode sont le bagging, qui utilise une stratégie aléatoire en réalisant une famille de modèles qui sont ensuite aggrégés et le boosting, qui privilégie une stratégie adaptative.

Réseau de neurones

Le réseau de neurones est un modèle théorique utilisé principalement dans les technologies d’exploration des données comme le data mining.
Un neurone est une unité de calcul élémentaire au principe de fonctionnement assimilable à celui d’un neurone biologique. A chaque donnée entrée dans le neurone est associé un poids (ou coefficient synaptique). Lorsque cette entrée dépasse un certain seuil, la sortie est activée.
Les neurones, organisés selon une architecture particulière (le réseau), sont utilisés pour la classification, l'estimation, la prédiction et la segmentation.

 
 
Recherche         
fermer