logo

Indice de Gini dans l'apprentissage automatique

Introduction

L'apprentissage automatique a réformé la manière dont nous traitons et examinons les données, et les algorithmes d'arbre de décision sont une décision célèbre pour les tâches de classification et de régression. L'indice de Gini, autrement appelé impureté de Gini ou coefficient de Gini, est une mesure d'impureté importante utilisée dans les algorithmes d'arbre de décision. Dans cet article, nous étudierons de manière exhaustive l'idée de l'indice de Gini, sa formule numérique et ses applications en apprentissage automatique. Nous comparerons également l'indice de Gini et d'autres mesures d'impuretés, parlerons de ses limites et de ses avantages, et examinerons les analyses contextuelles de ses applications dans le monde réel. Nous présenterons enfin ici les futures orientations de la recherche.

Qu’est-ce que l’indice de Gini ?

L'indice de Gini est une proportion d'impureté ou d'inégalité dans les contextes statistiques et monétaires. Dans l'apprentissage automatique, il est utilisé comme mesure d'impureté dans les algorithmes d'arbre de décision pour les tâches de classification. L'indice de Gini mesure la probabilité qu'un test choisi au hasard soit mal classé par un algorithme d'arbre de décision, et sa valeur va de 0 (parfaitement pur) à 1 (parfaitement impur).

Formule de l'indice de Gini

L'indice de Gini est une proportion de l'impureté ou de l'inégalité d'une circulation, régulièrement utilisée comme mesure d'impureté dans les algorithmes d'arbre de décision. En ce qui concerne les arbres de décision, l'indice Gini est utilisé pour déterminer la meilleure fonctionnalité sur laquelle diviser les données à chaque nœud de l'arbre.

La formule de l'indice de Gini est la suivante :

Indice de Gini dans l'apprentissage automatique

où pi est la probabilité qu’une chose ait une place dans une classe spécifique.

Par exemple, nous devrions considérer un problème de classification binaire avec deux classes An et B. Si la probabilité de la classe An est p et la probabilité de la classe B est (1-p), alors l'indice de Gini peut être calculé comme suit : :

La valeur de l'indice de Gini va de 0,0 à 0,5 pour les problèmes de classification binaire, où 0,0 démontre un nœud parfaitement pur (tous les exemples ont une place avec une classe similaire) et 0,5 montre un nœud parfaitement impur (les tests sont répartis également entre les deux classes ).

Utilisation de l'indice de Gini dans les problèmes de classification

L'indice de Gini est généralement utilisé comme mesure d'impureté dans les algorithmes d'arbre de décision pour les problèmes de classification. Dans les arbres de décision, chaque nœud traite un élément et l'objectif est de diviser les données en sous-ensembles essentiellement aussi purs qu'on pourrait s'y attendre. La mesure des impuretés (comme l'indice Gini) est utilisée pour décider de la meilleure répartition à chaque nœud.

Pour illustrer cela, nous devrions considérer un exemple d’arbre de décision pour un problème de classification binaire. L'arbre comporte deux éléments : l'âge et le revenu, et l'objectif est de prévoir si un individu va probablement acheter un article. L'arbre est construit en utilisant l'indice de Gini comme mesure d'impureté.

Au nœud racine, l'indice de Gini est calculé en fonction de la probabilité que les exemples aient une place dans la classe 0 ou la classe 1. Le nœud est divisé en fonction de la composante qui entraîne la diminution la plus élevée de l'indice de Gini. Ce cycle est répété de manière récursive pour chaque sous-ensemble jusqu'à ce qu'une mesure d'arrêt soit respectée.

Arbres de décision

Un arbre de décision est un algorithme d'apprentissage automatique bien connu utilisé à la fois pour les tâches de classification et de régression. Un modèle est élaboré en divisant récursivement l'ensemble de données en sous-ensembles plus modestes à la lumière des valeurs des informations mises en évidence, déterminées à limiter l'impureté des sous-ensembles suivants.

À chaque nœud de l'arborescence, une décision est prise en fonction des valeurs de l'un des points forts de l'information, dans le but final que les sous-ensembles suivants soient fondamentalement aussi purs qu'on pourrait réellement s'y attendre. La pureté d'un sous-ensemble est régulièrement estimée par une mesure d'impureté, par exemple l'indice de Gini ou l'entropie.

L'algorithme d'arbre de décision peut être utilisé pour les tâches de classification binaire et multi-classes, ainsi que pour les tâches de régression. Dans les tâches de classification binaire, l'arbre de décision divise l'ensemble de données en deux sous-ensembles en fonction de la valeur d'une caractéristique binaire, comme oui ou non. Dans les tâches de classification multi-classes, l'arbre de décision divise l'ensemble de données en de nombreux sous-ensembles à la lumière des valeurs d'une caractéristique simple, comme le rouge, le vert ou le bleu.

Indice de Gini par rapport à d'autres mesures d'impuretés

Outre l'indice de Gini, il existe d'autres mesures d'impuretés qui sont normalement utilisées dans les algorithmes d'arbre de décision, par exemple l'entropie et le gain d'informations.

Entropie :

Dans l’apprentissage automatique, l’entropie est une proportion de l’irrégularité ou de la vulnérabilité d’un ensemble de données. Il est généralement utilisé comme mesure d'impureté dans les algorithmes d'arbre de décision, aux côtés de l'indice de Gini.

Dans les algorithmes d’arbre de décision, l’entropie est utilisée pour décider du meilleur composant sur lequel diviser les données à chaque nœud de l’arbre. L'objectif est de trouver l'élément qui entraîne la plus grande diminution d'entropie, ce qui concerne le composant qui donne le plus d'informations sur le problème de classification.

Indice de Gini dans l'apprentissage automatique

Bien que l'entropie et l'indice de Gini soient tous deux normalement utilisés comme mesures d'impuretés dans les algorithmes d'arbre de décision, ils possèdent diverses propriétés. L'entropie est plus délicate pour la circulation des noms de classe et produira en général des arbres plus ajustés, tandis que l'indice de Gini est moins sensible à l'appropriation des notes de classe et créera en général des arbres plus limités avec moins de divisions. La décision concernant la mesure des impuretés repose sur le problème particulier et les attributs des données.

Gain d'informations :

Le gain d'informations est une action utilisée pour évaluer la nature d'une scission lors de la construction d'un arbre de décision. L'objectif d'un arbre de décision est de diviser les données en sous-ensembles qui sont fondamentalement aussi homogènes que possible en ce qui concerne la variable objective, de sorte que l'arbre suivant puisse être utilisé pour formuler des attentes exactes sur les nouvelles données. Le gain d'informations mesure la diminution de l'entropie ou des impuretés réalisée par une scission. La fonctionnalité avec le gain d'informations le plus remarquable est choisie comme la meilleure fonctionnalité sur laquelle se diviser à chaque nœud de l'arbre de décision.

Le gain d'informations est une mesure normalement utilisée pour évaluer la nature des divisions dans les arbres de décision, mais ce n'est pas celle sur laquelle se concentrer. Différentes mesures, par exemple l’indice de Gini ou le taux d’erreurs de classification, peuvent également être utilisées. La décision de diviser la base repose sur le problème principal et les attributs de l'ensemble de données utilisé.

Exemple d'indice de Gini

Nous devrions considérer un problème de classification binaire où nous avons un ensemble de données de 10 exemples avec deux classes : « Positive » et « Négative ». Sur les 10 exemples, 6 ont une place dans la classe 'Positif' et 4 ont une place dans la classe 'Négatif'.

Pour calculer l'indice de Gini de l'ensemble de données, nous calculons d'abord la probabilité de chaque classe :

p_1 = 6/10 = 0,6 (Positif)

p_2 = 4/10 = 0,4 (négatif)

Ensuite, à ce stade, nous utilisons la formule de l'indice de Gini pour calculer l'impureté de l'ensemble de données :

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

Ainsi, l'indice de Gini de l'ensemble de données est de 0,48.

Supposons actuellement que nous devions diviser l'ensemble de données sur un élément « X » qui a deux valeurs potentielles : « A » et « B ». Nous divisons l'ensemble de données en deux sous-ensembles en fonction du composant :

Sous-ensemble 1 (X = A) : 4 positifs, 1 négatif

Sous-ensemble 2 (X = B) : 2 positifs, 3 négatifs

Pour calculer la diminution de l'indice de Gini pour cette division, nous calculons initialement l'indice de Gini de chaque sous-ensemble :

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Ensuite, nous utilisons la formule de gain d'informations pour calculer la diminution de l'indice de Gini :

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Ainsi, le gain d'informations (c'est-à-dire la diminution de l'indice de Gini) pour diviser l'ensemble de données sur la surbrillance « X » est de 0,08.

Dans cette situation, dans le cas où nous calculons le gain d'informations pour tous les éléments et choisissons celui avec le gain d'informations le plus remarquable, ce composant serait choisi comme le meilleur composant à diviser au nœud racine de l'arbre de décision.

Avantages :

L'indice de Gini est une mesure largement utilisée pour évaluer la nature des divisions dans les arbres de décision, et il jouit d'un certain avantage sur différentes mesures, par exemple l'entropie ou le taux d'erreur de classification. Voici quelques-uns des principaux avantages de l’utilisation de l’indice Gini :

nbsp

Efficacité informatique : L'indice de Gini est une mesure moins complexe et plus rapide en termes de calcul, contrairement à d'autres mesures, par exemple l'entropie, qui implique le calcul de logarithmes.

Interprétation intuitive : L'indice de Gini est simple et interprétable. Il mesure la probabilité qu'un exemple choisi au hasard dans un ensemble soit mal classé dans le cas où il aurait été marqué au hasard en fonction de la classe de transport dans l'ensemble.

Bon pour la classification binaire : L'indice de Gini est particulièrement puissant pour les problèmes de classification binaire, où la variable objective n'a que deux classes. Dans de tels cas, l’indice de Gini est connu pour être plus stable que d’autres mesures.

Robuste au déséquilibre de classe : L'indice de Gini est moins sensible au déséquilibre des classes que d'autres mesures, par exemple la précision ou le taux d'erreurs de classification. Cela s'explique par le fait que l'indice de Gini dépend de l'étendue générale des exemples dans chaque classe, par opposition aux chiffres purs et simples.

Moins sujet au surapprentissage : L'indice de Gini produira en général des arbres de décision plus modestes par rapport à différentes mesures, ce qui le rend moins sujet au surajustement. En effet, l'indice de Gini favorisera en général les caractéristiques qui constituent des parcelles de données plus modestes, ce qui diminue les risques de surajustement.

Désavantages:

Bien que l’indice de Gini présente quelques avantages en tant que mesure de fractionnement des arbres de décision, il présente également quelques inconvénients. Voici une partie des principaux inconvénients de l’utilisation de l’indice Gini :

Biais en faveur de fonctionnalités avec de nombreuses catégories : L'indice Gini s'orientera en général vers des fonctionnalités comportant de nombreuses catégories ou valeurs, car elles peuvent effectuer davantage de fractionnements et de parcelles de données. Cela peut entraîner un surapprentissage et un arbre de décision plus compliqué.

Pas bon pour les variables continues : L'indice de Gini n'est pas approprié pour les variables continues, car il nécessite de discrétiser la variable en catégories ou catégories, ce qui peut entraîner une perte d'informations et une exactitude réduite.

Ignore les interactions entre les fonctionnalités : L'indice de Gini ne prend en compte que la force prémonitoire individuelle de chaque caractéristique et ignore les interactions entre les caractéristiques. Cela peut entraîner de mauvaises répartitions et des prévisions moins exactes.

Pas idéal pour certains ensembles de données : parfois, l'indice de Gini n'est peut-être pas la mesure idéale pour évaluer la nature des divisions dans un arbre de décision. Par exemple, dans le cas où la variable objective est exceptionnellement inclinée ou déséquilibrée, différentes mesures, par exemple le gain d'information ou la proportion de gain, pourraient être plus appropriées.

Sujet à biais en présence de valeurs manquantes : L'indice de Gini peut être biaisé en présence de valeurs manquantes, car il penchera en général vers les caractéristiques avec moins de valeurs manquantes, qu'elles ne soient pas ou non les plus informatives.

Applications réelles de l'indice Gini

L'indice Gini a été utilisé dans différentes applications d'apprentissage automatique, par exemple, la localisation des extorsions, la notation de crédit et la division client. Par exemple, dans le cadre de la découverte d'extorsions, l'indice de Gini peut être utilisé pour distinguer les modèles d'échange de données et reconnaître les comportements bizarres. En matière de notation de crédit, l'indice de Gini peut être utilisé pour prévoir la probabilité de défaut en fonction de variables telles que le revenu, le rapport entre l'encours de la dette et le salaire net et l'historique de remboursement du prêt. Dans la division clientèle, l'indice Gini peut être utilisé pour regrouper les clients en fonction de leur comportement et de leurs inclinations.

La recherche future

Malgré son utilisation illimitée dans les algorithmes d’arbres de décision, il existe encore des possibilités de recherche sur l’indice de Gini. Un domaine de recherche est l'avancement de nouvelles mesures d'impuretés qui peuvent remédier aux limites de l'indice de Gini, comme sa tendance vers des facteurs à plusieurs niveaux. Un autre domaine de recherche est la rationalisation des algorithmes d'arbre de décision utilisant l'indice de Gini, par exemple l'utilisation de techniques d'équipement pour travailler sur la précision des arbres de décision.

Conclusion

L'indice de Gini est une mesure d'impureté importante utilisée dans les algorithmes d'arbre de décision pour les tâches de classification. Il mesure la probabilité qu'un test choisi au hasard soit mal classé par un algorithme d'arbre de décision, et sa valeur va de 0 (parfaitement pur) à 1 (parfaitement impur). L'indice Gini est simple et exécutable, productif sur le plan informatique et puissant face aux exceptions. Il a été utilisé dans différentes applications d'apprentissage automatique, par exemple, la découverte de fausses déclarations, la notation de crédit et la division client. Bien que l'indice de Gini présente quelques limites, il reste encore des possibilités de recherche sur son amélioration et l'amélioration de nouvelles mesures d'impuretés.