CRISP-DM signifie le processus standard intersectoriel pour l'exploration de données. La méthodologie CRISP-DM fournit une approche structurée pour planifier un projet d'exploration de données. Il s’agit d’une méthodologie robuste et éprouvée. Nous n’en revendiquons aucune propriété. Nous ne l'avons pas inventé. Nous sommes un convertisseur de sa grande praticité, de sa flexibilité et de son utilité lors de l'utilisation de l'analyse pour résoudre des problèmes commerciaux. C’est le fil conducteur qui traverse presque toutes les réunions clients.
Ce modèle est une séquence idéalisée d’événements. En pratique, de nombreuses tâches peuvent être exécutées dans un ordre différent, et il sera souvent nécessaire de revenir sur des tâches précédentes et de répéter certaines actions. Le modèle ne tente pas de capturer tous les itinéraires possibles à travers le processus d'exploration de données.
Comment CRISP aide-t-il ?
CRISP DM fournit une feuille de route, il vous donne les meilleures pratiques et fournit des structures pour des résultats meilleurs et plus rapides en matière d'utilisation de l'exploration de données. C'est ainsi qu'il aide l'entreprise à suivre lors de la planification et de la réalisation d'un projet d'exploration de données.
Phases du CRISP-DM
CRISP-DM fournit un aperçu du cycle de vie de l'exploration de données en tant que modèle de processus. Le modèle de cycle de vie comprend six phases, avec des flèches indiquant les dépendances les plus importantes et les plus fréquentes entre les phases. L'ordre des phases n'est pas strict. Et la plupart des projets alternent entre les phases si nécessaire. Le modèle CRISP-DM est flexible et peut être facilement personnalisé.
Par exemple, si votre organisation vise à détecter le blanchiment d’argent, vous passerez probablement au crible de grandes quantités de données sans objectif de modélisation spécifique. Au lieu de la modélisation, votre travail se concentrera sur l'exploration et la visualisation des données pour découvrir des modèles suspects dans les données financières. CRISP-DM vous permet de créer un modèle d'exploration de données adapté à vos besoins.
Il comprend des descriptions des phases typiques d'un projet, les tâches impliquées dans chaque phase et une explication des relations entre ces tâches.
Phase 1 : Compréhension commerciale
La première étape du processus CRISP-DM consiste à comprendre ce que vous souhaitez accomplir d'un point de vue commercial. Votre organisation peut avoir des objectifs et des contraintes concurrents qui doivent être correctement équilibrés. Cette étape du processus vise à découvrir les facteurs importants influençant le résultat du projet. Négliger cette étape peut signifier que beaucoup d’efforts sont déployés pour produire les bonnes réponses aux mauvaises questions.
Quels sont les résultats souhaités du projet ?
Évaluer la situation actuelle
qu'est-ce que ça veut dire xd
Cela implique une enquête plus détaillée sur les ressources, les contraintes, les hypothèses et d'autres facteurs que vous devrez prendre en compte lors de la détermination de votre objectif d'analyse de données et de votre plan de projet.
- Personnel (experts métiers, experts en données, support technique, experts en data mining)
- Données (extraits fixes, accès aux données en direct, stockées ou opérationnelles)
- Ressources informatiques (plateformes matérielles)
- Logiciels (outils d'exploration de données, autres logiciels pertinents)
- Un glossaire de la terminologie commerciale pertinente fait partie de la compréhension commerciale disponible pour le projet. La construction de ce glossaire constitue un exercice utile de « collecte de connaissances » et d'éducation.
- Un glossaire de la terminologie de l'exploration de données est illustré d'exemples pertinents au problème métier.
Déterminer les objectifs d'exploration de données
Un objectif commercial énonce les objectifs dans la terminologie commerciale. Un objectif d'exploration de données énonce les objectifs du projet en termes techniques. Par exemple, l'objectif commercial peut être d'augmenter les ventes par catalogue aux clients existants. Un objectif d'exploration de données pourrait être de prédire le nombre de widgets qu'un client achètera, en fonction de ses achats au cours des trois dernières années, des informations démographiques (âge, salaire, ville, etc.) et du prix de l'article.
Produire un plan de projet
Décrivez le plan prévu pour atteindre les objectifs d'exploration de données et les objectifs commerciaux. Votre plan doit préciser les étapes à réaliser pendant le reste du projet, y compris la sélection initiale des outils et des techniques.
java int pour doubler
1. Plan du projet : Répertoriez les étapes à exécuter dans le projet, avec leur durée, les ressources requises, les entrées, les sorties et les dépendances. Dans la mesure du possible, essayez de rendre explicites les itérations à grande échelle dans le processus d'exploration de données, par exemple les répétitions des phases de modélisation et d'évaluation.
Dans le cadre du plan de projet, il est important d’analyser les dépendances entre les délais et les risques. Marquez explicitement les résultats de ces analyses dans le plan de projet, idéalement avec des actions et des recommandations si les risques se manifestent. Décidez quelle stratégie d’évaluation sera utilisée pendant la phase d’évaluation.
Votre plan de projet sera un document dynamique. À la fin de chaque phase, vous examinerez les progrès et les réalisations et mettrez à jour le plan du projet en conséquence. Des points d'examen spécifiques pour ces mises à jour doivent faire partie du plan de projet.
2. Évaluation initiale des outils et techniques : À la fin de la première phase, vous devez entreprendre une première évaluation des outils et des techniques. Par exemple, vous sélectionnez un outil d'exploration de données qui prend en charge diverses méthodes pour différentes étapes du processus. Il est important d'évaluer les outils et les techniques dès le début du processus, car la sélection des outils et des techniques peut influencer l'ensemble du projet.
Phase 2 : Compréhension des données
La deuxième phase du processus CRISP-DM nécessite que vous acquériez les données répertoriées dans les ressources du projet. Cette collecte initiale comprend le chargement des données si cela est nécessaire à la compréhension des données. Par exemple, si vous utilisez un outil spécifique pour comprendre les données, il est parfaitement logique de charger vos données dans cet outil. Si vous acquérez plusieurs sources de données, vous devez réfléchir à la manière et au moment où vous les intégrerez.
Décrire les données
Examinez les propriétés « brutes » ou « superficielles » des données acquises et faites un rapport sur les résultats.
Explorer les données
Au cours de cette étape, vous aborderez les questions d'exploration de données à l'aide de techniques d'interrogation, de visualisation de données et de reporting. Ceux-ci peuvent inclure :
- Répartition des attributs clés
- Relations entre paires ou petits nombres d'attributs
- Résultats des agrégations simples
- Propriétés des sous-populations importantes
- Analyses statistiques simples
Ces analyses peuvent répondre directement à vos objectifs d’exploration de données. Ils peuvent contribuer ou affiner la description des données et les rapports de qualité et alimenter la transformation et d'autres étapes de préparation des données nécessaires à une analyse plus approfondie.
Vérifier la qualité des données
Examinez la qualité des données en abordant des questions telles que :
- Les données sont-elles complètes ou couvrent-elles tous les cas requis ?
- Est-il correct ou contient-il des erreurs, et s'il y en a, quelle est leur fréquence ?
- Y a-t-il des valeurs manquantes dans les données ? Si oui, comment sont-ils représentés, où se produisent-ils et quelle est leur fréquence ?
Rapport sur la qualité des données
Répertoriez les résultats de la vérification de la qualité des données. Si des problèmes de qualité existent, suggérez des solutions possibles. Les solutions aux problèmes de qualité des données dépendent généralement fortement des données et des connaissances métiers.
Phase 3 : Préparation des données
Dans cette phase de projet, vous décidez des données que vous utiliserez pour l'analyse. Les critères que vous pouvez utiliser pour prendre cette décision incluent la pertinence des données par rapport à vos objectifs d'exploration de données, la qualité des données et les contraintes techniques telles que les limites du volume ou des types de données.
Nettoyez vos données
Cette tâche consiste à élever la qualité des données au niveau requis par les techniques d'analyse que vous avez sélectionnées. Cela peut impliquer la sélection de sous-ensembles de données propres, l'insertion de valeurs par défaut appropriées ou des techniques plus ambitieuses telles que l'estimation des données manquantes par modélisation.
Construire les données requises
fonction de sous-chaîne Java
Cette tâche comprend des opérations constructives de préparation de données telles que la production d'attributs dérivés, de nouveaux enregistrements complets ou de valeurs transformées pour des attributs existants.
Intégrer les données
Ces méthodes combinent des informations provenant de plusieurs bases de données, tables ou enregistrements pour créer de nouveaux enregistrements ou valeurs.
mot-clé volatile java
Phase 4 : Modélisation
Sélectionnez la technique de modélisation : dans un premier temps, vous sélectionnerez la technique de modélisation de base que vous utiliserez. Bien que vous ayez déjà sélectionné un outil lors de la phase de compréhension commerciale, à ce stade, vous sélectionnerez la technique de modélisation spécifique, par ex. construction d'arbres de décision avec C5.0 ou génération de réseaux neuronaux avec rétro-propagation. Si plusieurs techniques sont appliquées, effectuez cette tâche séparément pour chaque technique.
Générer une conception de test
Avant de créer un modèle, vous devez générer une procédure ou un mécanisme pour tester la qualité et la validité du modèle. Par exemple, dans les tâches d'exploration de données supervisées telles que la classification, il est courant d'utiliser les taux d'erreur comme mesures de qualité pour les modèles d'exploration de données. Par conséquent, vous séparez généralement l'ensemble de données en ensembles d'entraînement et de test, créez le modèle sur l'ensemble de train et estimez sa qualité sur l'ensemble de test séparé.
Construire un modèle
Exécutez l'outil de modélisation sur l'ensemble de données préparé pour créer un ou plusieurs modèles.
Évaluer le modèle
Interprétez les modèles en fonction de vos connaissances du domaine, des critères de réussite de l'exploration de données et de la conception de test souhaitée. Jugez du succès de l'application des techniques de modélisation et de découverte, puis contactez ultérieurement des analystes commerciaux et des experts du domaine pour discuter des résultats de l'exploration de données dans le contexte commercial. Cette tâche ne considère que les modèles, alors que la phase d'évaluation considère également tous les autres résultats produits au cours du projet.
A ce stade, vous devez classer les modèles et les évaluer selon les critères d'évaluation. Vous devez tenir compte autant que possible des objectifs commerciaux et des critères de réussite. Dans la plupart des projets d'exploration de données, une seule technique est appliquée plusieurs fois et les résultats de l'exploration de données sont générés avec plusieurs techniques différentes.
Phase 5 : Évaluation
Évaluez vos résultats : les étapes d'évaluation précédentes traitaient de facteurs tels que l'exactitude et la généralité du modèle. Au cours de cette étape, vous évaluerez dans quelle mesure le modèle répond à vos objectifs commerciaux et chercherez à déterminer s'il existe une raison commerciale pour laquelle ce modèle est déficient. Une autre option consiste à tester le modèle sur des applications de test dans l'application réelle si les contraintes de temps et de budget le permettent. La phase d'évaluation implique également d'évaluer tous les autres résultats d'exploration de données que vous avez générés. Les résultats de l'exploration de données impliquent des modèles qui sont nécessairement liés aux objectifs commerciaux d'origine et toutes les autres découvertes qui ne sont pas nécessairement liées aux objectifs commerciaux d'origine, mais peuvent également révéler des défis, des informations ou des conseils supplémentaires pour les orientations futures.
Processus de vérification
À ce stade, les modèles qui en résultent semblent satisfaisants et répondent aux besoins des entreprises. Il est désormais approprié pour vous de procéder à un examen plus approfondi de la mission d'exploration de données afin de déterminer s'il existe un facteur ou une tâche importante qui a été négligée d'une manière ou d'une autre. Cet examen couvre également les questions d’assurance qualité. Par exemple : avons-nous correctement construit le modèle ? Avons-nous utilisé uniquement les attributs que nous sommes autorisés à utiliser et qui sont disponibles pour de futures analyses ?
Déterminer les prochaines étapes
Vous décidez maintenant comment procéder en fonction des résultats de l’évaluation et de l’examen du processus. Allez-vous terminer ce projet et passer au déploiement, lancer d'autres itérations ou mettre en place de nouveaux projets d'exploration de données ? Vous devez également faire le point sur vos ressources et votre budget restants, ce qui peut influencer vos décisions.
Phase 6 : Déploiement
Planifier le déploiement : lors de la phase de déploiement, vous prendrez en compte les résultats de votre évaluation et déterminerez une stratégie pour leur déploiement. Si une procédure générale a été identifiée pour créer le(s) modèle(s) pertinent(s), cette procédure est documentée ici pour un déploiement ultérieur. Il est logique de réfléchir aux voies et moyens de déploiement lors de la phase de compréhension métier car le déploiement est crucial pour la réussite du projet. C'est là que l'analyse prédictive contribue à améliorer le côté opérationnel de votre entreprise.
Planifier le suivi et la maintenance
La surveillance et la maintenance sont des enjeux importants si le résultat de l'exploration de données devient partie intégrante de l'activité quotidienne et de son environnement. La préparation minutieuse d’une stratégie de maintenance permet d’éviter des périodes inutilement longues d’utilisation incorrecte des résultats de l’exploration de données. Le projet a besoin d'un plan de processus de surveillance détaillé pour surveiller le déploiement du ou des résultats de l'exploration de données. Ce plan prend en compte le type spécifique de déploiement.
Produire le rapport final
A la fin du projet, vous rédigerez un rapport final. En fonction du plan de déploiement, ce rapport peut être uniquement un résumé du projet et de ses expériences (si elles n'ont pas déjà été documentées comme une activité en cours), ou il peut s'agir d'une présentation finale et complète du résultat de l'exploration de données.
Revoir le projet
chiens d'étagère
Évaluez ce qui a bien et mal fonctionné, ce qui a été bien fait et ce qui doit être amélioré.