ALGORITHME DE CLASSIFICATION DANS L'APPRENTISSAGE AUTOMATIQUE

Comme nous le savons, l'algorithme d'apprentissage automatique supervisé peut être largement classé en algorithmes de régression et de classification. Dans les algorithmes de régression, nous avons prédit le résultat pour des valeurs continues, mais pour prédire les valeurs catégorielles, nous avons besoin d'algorithmes de classification.

Qu'est-ce que l'algorithme de classification ?

L'algorithme de classification est une technique d'apprentissage supervisé qui est utilisée pour identifier la catégorie de nouvelles observations sur la base de données d'entraînement. Dans Classification, un programme apprend à partir de l'ensemble de données ou des observations donnés, puis classe les nouvelles observations en un certain nombre de classes ou de groupes. Tel que, Oui ou Non, 0 ou 1, Spam ou Pas Spam, chat ou chien, etc. Les classes peuvent être appelées cibles/étiquettes ou catégories.

bash lire le fichier

Contrairement à la régression, la variable de sortie de la classification est une catégorie et non une valeur, telle que « Vert ou Bleu », « fruit ou animal », etc. Puisque l'algorithme de classification est une technique d'apprentissage supervisé, il prend donc des données d'entrée étiquetées, qui signifie qu'il contient une entrée avec la sortie correspondante.

Dans l'algorithme de classification, une fonction de sortie discrète (y) est mappée à une variable d'entrée (x).

 y=f(x), where y = categorical output

Le meilleur exemple d'algorithme de classification ML est Détecteur de spam par courrier électronique .

L'objectif principal de l'algorithme de classification est d'identifier la catégorie d'un ensemble de données donné, et ces algorithmes sont principalement utilisés pour prédire la sortie des données catégorielles.

Les algorithmes de classification peuvent être mieux compris à l'aide du diagramme ci-dessous. Dans le diagramme ci-dessous, il existe deux classes, la classe A et la classe B. Ces classes ont des fonctionnalités similaires les unes aux autres et différentes des autres classes.

Algorithme de classification dans l'apprentissage automatique

L'algorithme qui implémente la classification sur un ensemble de données est appelé classificateur. Il existe deux types de classements :

Exemples:

Exemple:

Apprenants en problèmes de classification :

Dans les problèmes de classification, il existe deux types d’apprenants :

Exemple:

Types d'algorithmes de classification ML :

Les algorithmes de classification peuvent être divisés en deux catégories principales :

Régression logistique
Machines à vecteurs de support

K-Voisins les plus proches
SVM du noyau
Na�ve Bayes
Classification de l'arbre de décision
Classification aléatoire des forêts

Remarque : nous apprendrons les algorithmes ci-dessus dans les chapitres suivants.

Évaluation d'un modèle de classification :

Une fois notre modèle complété, il est nécessaire d’évaluer ses performances ; soit il s'agit d'un modèle de classification ou de régression. Ainsi, pour évaluer un modèle de classification, nous disposons des méthodes suivantes :

1. Perte de journal ou perte d'entropie croisée :

Il est utilisé pour évaluer les performances d'un classificateur, dont la sortie est une valeur de probabilité comprise entre 0 et 1.
Pour un bon modèle de classification binaire, la valeur de la perte log doit être proche de 0.
La valeur de la perte logarithmique augmente si la valeur prévue s'écarte de la valeur réelle.
La perte logarithmique inférieure représente la plus grande précision du modèle.
Pour la classification binaire, l'entropie croisée peut être calculée comme suit :

 ?(ylog(p)+(1?y)log(1?p))

Où y = sortie réelle, p = sortie prévue.

2. Matrice de confusion :

La matrice de confusion nous fournit une matrice/tableau en sortie et décrit les performances du modèle.
Elle est également connue sous le nom de matrice d’erreur.
La matrice est constituée de résultats de prédictions sous une forme résumée, qui présente un nombre total de prédictions correctes et de prédictions incorrectes. La matrice ressemble au tableau ci-dessous :

	Réel positif	Réel négatif
Prédit positif	Vrai positif	Faux positif
Négatif prévu	Faux négatif	Vrai négatif

3. Courbe AUC-ROC :

les bases de Java

La courbe ROC signifie Courbe des caractéristiques de fonctionnement du récepteur et AUC signifie Aire sous la courbe .
Il s'agit d'un graphique qui montre les performances du modèle de classification à différents seuils.
Pour visualiser les performances du modèle de classification multi-classes, nous utilisons la courbe AUC-ROC.
La courbe ROC est tracée avec TPR et FPR, où TPR (True Positive Rate) sur l'axe Y et FPR (False Positive Rate) sur l'axe X.

Cas d'utilisation des algorithmes de classification

Les algorithmes de classification peuvent être utilisés à différents endroits. Vous trouverez ci-dessous quelques cas d’utilisation courants des algorithmes de classification :

Détection du spam par courrier électronique
Reconnaissance de la parole
Identifications des cellules tumorales cancéreuses.
Classification des drogues
Identification biométrique, etc.