logo

Qu’est-ce que CRISP dans l’exploration de données ?

CRISP-DM signifie le processus standard intersectoriel pour l'exploration de données. La méthodologie CRISP-DM fournit une approche structurée pour planifier un projet d'exploration de données. Il s’agit d’une méthodologie robuste et éprouvée. Nous n’en revendiquons aucune propriété. Nous ne l'avons pas inventé. Nous sommes un convertisseur de sa grande praticité, de sa flexibilité et de son utilité lors de l'utilisation de l'analyse pour résoudre des problèmes commerciaux. C’est le fil conducteur qui traverse presque toutes les réunions clients.

Ce modèle est une séquence idéalisée d’événements. En pratique, de nombreuses tâches peuvent être exécutées dans un ordre différent, et il sera souvent nécessaire de revenir sur des tâches précédentes et de répéter certaines actions. Le modèle ne tente pas de capturer tous les itinéraires possibles à travers le processus d'exploration de données.

Comment CRISP aide-t-il ?

CRISP DM fournit une feuille de route, il vous donne les meilleures pratiques et fournit des structures pour des résultats meilleurs et plus rapides en matière d'utilisation de l'exploration de données. C'est ainsi qu'il aide l'entreprise à suivre lors de la planification et de la réalisation d'un projet d'exploration de données.

Phases du CRISP-DM

CRISP-DM fournit un aperçu du cycle de vie de l'exploration de données en tant que modèle de processus. Le modèle de cycle de vie comprend six phases, avec des flèches indiquant les dépendances les plus importantes et les plus fréquentes entre les phases. L'ordre des phases n'est pas strict. Et la plupart des projets alternent entre les phases si nécessaire. Le modèle CRISP-DM est flexible et peut être facilement personnalisé.

Par exemple, si votre organisation vise à détecter le blanchiment d’argent, vous passerez probablement au crible de grandes quantités de données sans objectif de modélisation spécifique. Au lieu de la modélisation, votre travail se concentrera sur l'exploration et la visualisation des données pour découvrir des modèles suspects dans les données financières. CRISP-DM vous permet de créer un modèle d'exploration de données adapté à vos besoins.

Il comprend des descriptions des phases typiques d'un projet, les tâches impliquées dans chaque phase et une explication des relations entre ces tâches.

Qu'est-ce que CRISP dans l'exploration de données

Phase 1 : Compréhension commerciale

La première étape du processus CRISP-DM consiste à comprendre ce que vous souhaitez accomplir d'un point de vue commercial. Votre organisation peut avoir des objectifs et des contraintes concurrents qui doivent être correctement équilibrés. Cette étape du processus vise à découvrir les facteurs importants influençant le résultat du projet. Négliger cette étape peut signifier que beaucoup d’efforts sont déployés pour produire les bonnes réponses aux mauvaises questions.

Quels sont les résultats souhaités du projet ?

    Poser des objectifs:Décrivez votre objectif principal d’un point de vue commercial. Il se peut également que vous souhaitiez mentionner d’autres questions connexes. Par exemple, votre objectif principal pourrait être de fidéliser les clients actuels en prédisant quand ils seront enclins à passer chez un concurrent.Produire un plan de projet :Décrivez le plan pour atteindre les objectifs d'exploration de données et d'affaires. Le plan doit préciser les étapes à réaliser pendant le reste du projet, y compris la sélection initiale des outils et des techniques.Critères de réussite commerciale :Ici, vous exposerez les critères que vous utiliserez pour déterminer si le projet a réussi du point de vue commercial. Ceux-ci devraient idéalement être spécifiques et mesurables, par exemple en réduisant le rythme des clients à un certain niveau. Cependant, il peut parfois s’avérer nécessaire d’avoir des critères plus subjectifs, comme donner des informations utiles sur les relations.

Évaluer la situation actuelle

qu'est-ce que ça veut dire xd

Cela implique une enquête plus détaillée sur les ressources, les contraintes, les hypothèses et d'autres facteurs que vous devrez prendre en compte lors de la détermination de votre objectif d'analyse de données et de votre plan de projet.

    Inventaire des ressources :Répertoriez les ressources disponibles pour le projet, notamment :
    • Personnel (experts métiers, experts en données, support technique, experts en data mining)
    • Données (extraits fixes, accès aux données en direct, stockées ou opérationnelles)
    • Ressources informatiques (plateformes matérielles)
    • Logiciels (outils d'exploration de données, autres logiciels pertinents)
    Exigences, hypothèses et contraintes :Énumérez toutes les exigences du projet, y compris le calendrier d'achèvement, l'intelligibilité et la qualité des résultats requises, ainsi que tout problème de sécurité des données et problème juridique. Assurez-vous que vous êtes autorisé à utiliser les données. Énumérez les hypothèses formulées par le projet. Il peut s'agir d'hypothèses sur les données qui peuvent être vérifiées lors de l'exploration de données, mais peuvent également inclure des hypothèses non vérifiables sur l'activité liée au projet. Il est important de lister ces derniers s’ils affectent la validité des résultats. Listez les contraintes du projet. Il peut s'agir de contraintes liées à la disponibilité des ressources, mais également de contraintes technologiques telles que la taille de l'ensemble de données qu'il est pratique d'utiliser pour la modélisation.Risques et imprévus :Répertoriez les risques ou les événements qui pourraient retarder le projet ou provoquer son échec. Énumérez les plans d'urgence correspondants, par exemple quelle mesure prendrez-vous si ces risques ou événements se produisent ?Terminologie:Compiler un glossaire de la terminologie pertinente au projet. Celui-ci comportera généralement deux éléments :
    • Un glossaire de la terminologie commerciale pertinente fait partie de la compréhension commerciale disponible pour le projet. La construction de ce glossaire constitue un exercice utile de « collecte de connaissances » et d'éducation.
    • Un glossaire de la terminologie de l'exploration de données est illustré d'exemples pertinents au problème métier.
    Coûts et bénéfices:Construire une analyse coûts-avantages pour le projet, qui compare les coûts du projet avec les avantages potentiels pour l'entreprise en cas de réussite. Cette comparaison doit être aussi précise que possible. Par exemple, vous devez utiliser des mesures financières dans une situation commerciale.

Déterminer les objectifs d'exploration de données

Un objectif commercial énonce les objectifs dans la terminologie commerciale. Un objectif d'exploration de données énonce les objectifs du projet en termes techniques. Par exemple, l'objectif commercial peut être d'augmenter les ventes par catalogue aux clients existants. Un objectif d'exploration de données pourrait être de prédire le nombre de widgets qu'un client achètera, en fonction de ses achats au cours des trois dernières années, des informations démographiques (âge, salaire, ville, etc.) et du prix de l'article.

    Critères de réussite commerciale :Il décrit les résultats attendus du projet qui permettent d'atteindre les objectifs commerciaux.Critères de réussite de l'exploration de données :Il définit les critères de réussite du projet. Par exemple, un certain niveau de précision prédictive ou un profil de propension à acheter avec un degré d'« ascenseur » donné. Comme pour les critères de réussite commerciale, il peut être nécessaire de les décrire en termes subjectifs, auquel cas la ou les personnes émettant le jugement subjectif doivent être identifiées.

Produire un plan de projet

Décrivez le plan prévu pour atteindre les objectifs d'exploration de données et les objectifs commerciaux. Votre plan doit préciser les étapes à réaliser pendant le reste du projet, y compris la sélection initiale des outils et des techniques.

java int pour doubler

1. Plan du projet : Répertoriez les étapes à exécuter dans le projet, avec leur durée, les ressources requises, les entrées, les sorties et les dépendances. Dans la mesure du possible, essayez de rendre explicites les itérations à grande échelle dans le processus d'exploration de données, par exemple les répétitions des phases de modélisation et d'évaluation.

Dans le cadre du plan de projet, il est important d’analyser les dépendances entre les délais et les risques. Marquez explicitement les résultats de ces analyses dans le plan de projet, idéalement avec des actions et des recommandations si les risques se manifestent. Décidez quelle stratégie d’évaluation sera utilisée pendant la phase d’évaluation.

Votre plan de projet sera un document dynamique. À la fin de chaque phase, vous examinerez les progrès et les réalisations et mettrez à jour le plan du projet en conséquence. Des points d'examen spécifiques pour ces mises à jour doivent faire partie du plan de projet.

2. Évaluation initiale des outils et techniques : À la fin de la première phase, vous devez entreprendre une première évaluation des outils et des techniques. Par exemple, vous sélectionnez un outil d'exploration de données qui prend en charge diverses méthodes pour différentes étapes du processus. Il est important d'évaluer les outils et les techniques dès le début du processus, car la sélection des outils et des techniques peut influencer l'ensemble du projet.

Phase 2 : Compréhension des données

La deuxième phase du processus CRISP-DM nécessite que vous acquériez les données répertoriées dans les ressources du projet. Cette collecte initiale comprend le chargement des données si cela est nécessaire à la compréhension des données. Par exemple, si vous utilisez un outil spécifique pour comprendre les données, il est parfaitement logique de charger vos données dans cet outil. Si vous acquérez plusieurs sources de données, vous devez réfléchir à la manière et au moment où vous les intégrerez.

    Rapport initial de collecte de données :Répertoriez les sources de données acquises, leurs emplacements, les méthodes utilisées pour les acquérir et les problèmes rencontrés. Enregistrez les problèmes que vous avez rencontrés et toutes les résolutions obtenues. Cela facilitera la réplication future de ce projet et l’exécution de futurs projets similaires.

Décrire les données

Examinez les propriétés « brutes » ou « superficielles » des données acquises et faites un rapport sur les résultats.

    Rapport de description des données :Décrire les données acquises, y compris leur format, leur quantité, l'identité des champs et toute autre caractéristique de surface découverte. Évaluez si les données acquises répondent à vos exigences.

Explorer les données

Au cours de cette étape, vous aborderez les questions d'exploration de données à l'aide de techniques d'interrogation, de visualisation de données et de reporting. Ceux-ci peuvent inclure :

  • Répartition des attributs clés
  • Relations entre paires ou petits nombres d'attributs
  • Résultats des agrégations simples
  • Propriétés des sous-populations importantes
  • Analyses statistiques simples

Ces analyses peuvent répondre directement à vos objectifs d’exploration de données. Ils peuvent contribuer ou affiner la description des données et les rapports de qualité et alimenter la transformation et d'autres étapes de préparation des données nécessaires à une analyse plus approfondie.

    Rapport d'exploration de données :Décrivez les résultats de votre exploration de données, y compris les premiers résultats ou hypothèses initiales et leur impact sur le reste du projet. Le cas échéant, vous pouvez inclure ici des graphiques et des tracés pour indiquer les caractéristiques des données qui suggèrent un examen plus approfondi de sous-ensembles de données intéressants.

Vérifier la qualité des données

Examinez la qualité des données en abordant des questions telles que :

  • Les données sont-elles complètes ou couvrent-elles tous les cas requis ?
  • Est-il correct ou contient-il des erreurs, et s'il y en a, quelle est leur fréquence ?
  • Y a-t-il des valeurs manquantes dans les données ? Si oui, comment sont-ils représentés, où se produisent-ils et quelle est leur fréquence ?

Rapport sur la qualité des données

Répertoriez les résultats de la vérification de la qualité des données. Si des problèmes de qualité existent, suggérez des solutions possibles. Les solutions aux problèmes de qualité des données dépendent généralement fortement des données et des connaissances métiers.

Phase 3 : Préparation des données

Dans cette phase de projet, vous décidez des données que vous utiliserez pour l'analyse. Les critères que vous pouvez utiliser pour prendre cette décision incluent la pertinence des données par rapport à vos objectifs d'exploration de données, la qualité des données et les contraintes techniques telles que les limites du volume ou des types de données.

    La justification de l’inclusion/exclusion :Listez les données à inclure/exclure et les raisons de ces décisions.

Nettoyez vos données

Cette tâche consiste à élever la qualité des données au niveau requis par les techniques d'analyse que vous avez sélectionnées. Cela peut impliquer la sélection de sous-ensembles de données propres, l'insertion de valeurs par défaut appropriées ou des techniques plus ambitieuses telles que l'estimation des données manquantes par modélisation.

    Rapport de nettoyage des données :Décrivez les décisions et les actions que vous avez prises pour résoudre les problèmes de qualité des données. Tenez compte de toutes les transformations de données effectuées à des fins de nettoyage et de leur impact possible sur les résultats de l'analyse.

Construire les données requises

fonction de sous-chaîne Java

Cette tâche comprend des opérations constructives de préparation de données telles que la production d'attributs dérivés, de nouveaux enregistrements complets ou de valeurs transformées pour des attributs existants.

    Attributs dérivés :Il s'agit de nouveaux attributs construits à partir d'un ou plusieurs attributs existants dans le même enregistrement. Par exemple, vous pouvez utiliser les variables de longueur et de largeur pour calculer une nouvelle variable de surface.Enregistrements générés :Ici, vous décrivez la création de tout enregistrement complètement nouveau. Par exemple, vous devrez peut-être créer des enregistrements pour les clients qui n'ont pas acheté au cours de l'année écoulée. Il n’y avait aucune raison d’avoir de tels enregistrements dans les données brutes. Néanmoins, il pourrait être logique de supposer que certains clients n’ont explicitement effectué aucun achat à des fins de modélisation.

Intégrer les données

Ces méthodes combinent des informations provenant de plusieurs bases de données, tables ou enregistrements pour créer de nouveaux enregistrements ou valeurs.

mot-clé volatile java
    Données fusionnées :La fusion de tables fait référence à la jointure de deux ou plusieurs tables contenant des informations différentes sur les mêmes objets. Par exemple, une chaîne de vente au détail peut avoir un tableau contenant des informations sur les caractéristiques générales de chaque magasin (par exemple, la surface au sol, le type de centre commercial), un autre tableau avec des données de ventes résumées (par exemple, le bénéfice, la variation en pourcentage des ventes par rapport à l'année précédente) et un autre avec des informations sur la démographie de la région environnante. Chacune de ces tables contient un enregistrement pour chaque magasin. Ces tables peuvent être fusionnées en une nouvelle table avec un enregistrement pour chaque magasin, combinant les champs des tables sources.Agrégations :Les agrégations sont des opérations dans lesquelles de nouvelles valeurs sont calculées en résumant les informations de plusieurs enregistrements ou tables. Par exemple, convertir un tableau d'achats clients contenant un enregistrement pour chaque achat en un nouveau tableau et un enregistrement pour chaque client, avec des champs tels que le nombre d'achats, le montant moyen des achats, le pourcentage de commandes facturées par carte de crédit, le pourcentage d'articles. en promotion etc.

Phase 4 : Modélisation

Sélectionnez la technique de modélisation : dans un premier temps, vous sélectionnerez la technique de modélisation de base que vous utiliserez. Bien que vous ayez déjà sélectionné un outil lors de la phase de compréhension commerciale, à ce stade, vous sélectionnerez la technique de modélisation spécifique, par ex. construction d'arbres de décision avec C5.0 ou génération de réseaux neuronaux avec rétro-propagation. Si plusieurs techniques sont appliquées, effectuez cette tâche séparément pour chaque technique.

    Technique de modélisation :Documentez la technique de modélisation de base qui doit être utilisée.Hypothèses de modélisation :De nombreuses techniques de modélisation font des hypothèses spécifiques sur les données, par exemple que tous les attributs ont des distributions uniformes, qu'aucune valeur manquante n'est autorisée, que l'attribut de classe doit être symbolique, etc. Enregistrez toutes les hypothèses formulées.

Générer une conception de test

Avant de créer un modèle, vous devez générer une procédure ou un mécanisme pour tester la qualité et la validité du modèle. Par exemple, dans les tâches d'exploration de données supervisées telles que la classification, il est courant d'utiliser les taux d'erreur comme mesures de qualité pour les modèles d'exploration de données. Par conséquent, vous séparez généralement l'ensemble de données en ensembles d'entraînement et de test, créez le modèle sur l'ensemble de train et estimez sa qualité sur l'ensemble de test séparé.

    Conception des tests :Décrivez le plan prévu pour la formation, les tests et l'évaluation des modèles. L'un des principaux éléments du plan consiste à déterminer comment diviser l'ensemble de données disponible en ensembles de données de formation, de test et de validation.

Construire un modèle

Exécutez l'outil de modélisation sur l'ensemble de données préparé pour créer un ou plusieurs modèles.

    Paramètres des paramètres :Avec tout outil de modélisation, il existe souvent un grand nombre de paramètres pouvant être ajustés. Répertoriez les paramètres, leurs valeurs et la justification de la sélection des paramètres.Des modèles:Il s'agit des modèles produits par l'outil de modélisation, et non d'un rapport sur les modèles.Descriptions des modèles :Décrire les modèles résultants, rendre compte de l'interprétation des modèles et documenter toute difficulté rencontrée avec leur signification.

Évaluer le modèle

Interprétez les modèles en fonction de vos connaissances du domaine, des critères de réussite de l'exploration de données et de la conception de test souhaitée. Jugez du succès de l'application des techniques de modélisation et de découverte, puis contactez ultérieurement des analystes commerciaux et des experts du domaine pour discuter des résultats de l'exploration de données dans le contexte commercial. Cette tâche ne considère que les modèles, alors que la phase d'évaluation considère également tous les autres résultats produits au cours du projet.

A ce stade, vous devez classer les modèles et les évaluer selon les critères d'évaluation. Vous devez tenir compte autant que possible des objectifs commerciaux et des critères de réussite. Dans la plupart des projets d'exploration de données, une seule technique est appliquée plusieurs fois et les résultats de l'exploration de données sont générés avec plusieurs techniques différentes.

    Évaluation du modèle :Résume les résultats de cette tâche, répertorie les qualités de vos modèles générés (par exemple, en termes de précision) et classe leur qualité les unes par rapport aux autres.Paramètres révisés :Selon l'évaluation du modèle, révisez-les et ajustez-les pour la prochaine exécution de modélisation. Répétez la création et l'évaluation du modèle jusqu'à ce que vous soyez convaincu d'avoir trouvé le(s) meilleur(s) modèle(s). Documentez toutes ces révisions et évaluations.

Phase 5 : Évaluation

Évaluez vos résultats : les étapes d'évaluation précédentes traitaient de facteurs tels que l'exactitude et la généralité du modèle. Au cours de cette étape, vous évaluerez dans quelle mesure le modèle répond à vos objectifs commerciaux et chercherez à déterminer s'il existe une raison commerciale pour laquelle ce modèle est déficient. Une autre option consiste à tester le modèle sur des applications de test dans l'application réelle si les contraintes de temps et de budget le permettent. La phase d'évaluation implique également d'évaluer tous les autres résultats d'exploration de données que vous avez générés. Les résultats de l'exploration de données impliquent des modèles qui sont nécessairement liés aux objectifs commerciaux d'origine et toutes les autres découvertes qui ne sont pas nécessairement liées aux objectifs commerciaux d'origine, mais peuvent également révéler des défis, des informations ou des conseils supplémentaires pour les orientations futures.

    Évaluation des résultats de l'exploration de données :Résumez les résultats de l’évaluation en critères de réussite commerciale, y compris une déclaration finale indiquant si le projet répond déjà aux objectifs commerciaux initiaux.Modèles homologués :Après avoir évalué les modèles selon les critères de réussite commerciale, les modèles générés qui répondent aux critères sélectionnés deviennent les modèles approuvés.

Processus de vérification

À ce stade, les modèles qui en résultent semblent satisfaisants et répondent aux besoins des entreprises. Il est désormais approprié pour vous de procéder à un examen plus approfondi de la mission d'exploration de données afin de déterminer s'il existe un facteur ou une tâche importante qui a été négligée d'une manière ou d'une autre. Cet examen couvre également les questions d’assurance qualité. Par exemple : avons-nous correctement construit le modèle ? Avons-nous utilisé uniquement les attributs que nous sommes autorisés à utiliser et qui sont disponibles pour de futures analyses ?

    Bilan du processus :Résumez l’examen du processus et mettez en évidence les activités qui ont été manquées et celles qui devraient être répétées.

Déterminer les prochaines étapes

Vous décidez maintenant comment procéder en fonction des résultats de l’évaluation et de l’examen du processus. Allez-vous terminer ce projet et passer au déploiement, lancer d'autres itérations ou mettre en place de nouveaux projets d'exploration de données ? Vous devez également faire le point sur vos ressources et votre budget restants, ce qui peut influencer vos décisions.

    Liste des actions possibles :Énumérez les actions supplémentaires potentielles et les raisons pour et contre chaque option.Décision:Décrivez la décision sur la façon de procéder, ainsi que la justification.

Phase 6 : Déploiement

Planifier le déploiement : lors de la phase de déploiement, vous prendrez en compte les résultats de votre évaluation et déterminerez une stratégie pour leur déploiement. Si une procédure générale a été identifiée pour créer le(s) modèle(s) pertinent(s), cette procédure est documentée ici pour un déploiement ultérieur. Il est logique de réfléchir aux voies et moyens de déploiement lors de la phase de compréhension métier car le déploiement est crucial pour la réussite du projet. C'est là que l'analyse prédictive contribue à améliorer le côté opérationnel de votre entreprise.

    Plan de déploiement:Résumez votre stratégie de déploiement, y compris les étapes nécessaires et comment les exécuter.

Planifier le suivi et la maintenance

La surveillance et la maintenance sont des enjeux importants si le résultat de l'exploration de données devient partie intégrante de l'activité quotidienne et de son environnement. La préparation minutieuse d’une stratégie de maintenance permet d’éviter des périodes inutilement longues d’utilisation incorrecte des résultats de l’exploration de données. Le projet a besoin d'un plan de processus de surveillance détaillé pour surveiller le déploiement du ou des résultats de l'exploration de données. Ce plan prend en compte le type spécifique de déploiement.

    Plan de surveillance et de maintenance :Résumez la stratégie de surveillance et de maintenance, y compris les étapes nécessaires et la manière de les exécuter.

Produire le rapport final

A la fin du projet, vous rédigerez un rapport final. En fonction du plan de déploiement, ce rapport peut être uniquement un résumé du projet et de ses expériences (si elles n'ont pas déjà été documentées comme une activité en cours), ou il peut s'agir d'une présentation finale et complète du résultat de l'exploration de données.

    Rapport final:Il s'agit du rapport écrit final de la mission d'exploration de données. Il comprend tous les livrables précédents, résumant et organisant les résultats.Présentation finale:Il y aura souvent une réunion après le projet au cours de laquelle les résultats seront présentés au client.

Revoir le projet

chiens d'étagère

Évaluez ce qui a bien et mal fonctionné, ce qui a été bien fait et ce qui doit être amélioré.

    Documentation d'expérience :Résumez l’expérience importante acquise au cours du projet. Par exemple, cette documentation peut inclure les pièges que vous avez rencontrés, les approches trompeuses ou les conseils permettant de sélectionner les techniques d'exploration de données les mieux adaptées à des situations similaires. Dans les projets idéaux, la documentation de l'expérience couvre également tous les rapports que les membres individuels du projet ont rédigés au cours des phases précédentes du projet.