logo

Algorithme de classification dans l'apprentissage automatique

Comme nous le savons, l'algorithme d'apprentissage automatique supervisé peut être largement classé en algorithmes de régression et de classification. Dans les algorithmes de régression, nous avons prédit le résultat pour des valeurs continues, mais pour prédire les valeurs catégorielles, nous avons besoin d'algorithmes de classification.

Qu'est-ce que l'algorithme de classification ?

L'algorithme de classification est une technique d'apprentissage supervisé qui est utilisée pour identifier la catégorie de nouvelles observations sur la base de données d'entraînement. Dans Classification, un programme apprend à partir de l'ensemble de données ou des observations donnés, puis classe les nouvelles observations en un certain nombre de classes ou de groupes. Tel que, Oui ou Non, 0 ou 1, Spam ou Pas Spam, chat ou chien, etc. Les classes peuvent être appelées cibles/étiquettes ou catégories.

bash lire le fichier

Contrairement à la régression, la variable de sortie de la classification est une catégorie et non une valeur, telle que « Vert ou Bleu », « fruit ou animal », etc. Puisque l'algorithme de classification est une technique d'apprentissage supervisé, il prend donc des données d'entrée étiquetées, qui signifie qu'il contient une entrée avec la sortie correspondante.

Dans l'algorithme de classification, une fonction de sortie discrète (y) est mappée à une variable d'entrée (x).

 y=f(x), where y = categorical output 

Le meilleur exemple d'algorithme de classification ML est Détecteur de spam par courrier électronique .

L'objectif principal de l'algorithme de classification est d'identifier la catégorie d'un ensemble de données donné, et ces algorithmes sont principalement utilisés pour prédire la sortie des données catégorielles.

Les algorithmes de classification peuvent être mieux compris à l'aide du diagramme ci-dessous. Dans le diagramme ci-dessous, il existe deux classes, la classe A et la classe B. Ces classes ont des fonctionnalités similaires les unes aux autres et différentes des autres classes.

Algorithme de classification dans l'apprentissage automatique

L'algorithme qui implémente la classification sur un ensemble de données est appelé classificateur. Il existe deux types de classements :

    Classificateur binaire :Si le problème de classification n’a que deux résultats possibles, il est alors appelé classificateur binaire.
    Exemples: OUI ou NON, MÂLE ou FEMME, SPAM ou NON SPAM, CHAT ou CHIEN, etc.Classificateur multiclasse :Si un problème de classification a plus de deux résultats, il est alors appelé classificateur multi-classes.
    Exemple: Classifications des types de cultures, Classification des types de musique.

Apprenants en problèmes de classification :

Dans les problèmes de classification, il existe deux types d’apprenants :

    Apprenants paresseux :Lazy Learner stocke d’abord l’ensemble de données de formation et attend qu’il reçoive l’ensemble de données de test. Dans le cas de l'apprenant paresseux, la classification est effectuée sur la base des données les plus pertinentes stockées dans l'ensemble de données de formation. Cela prend moins de temps à l’entraînement mais plus de temps pour les pronostics.
    Exemple: Algorithme K-NN, raisonnement basé sur des casApprenants impatients :Les apprenants enthousiastes développent un modèle de classification basé sur un ensemble de données de formation avant de recevoir un ensemble de données de test. Contrairement aux apprenants paresseux, l’apprenant impatient prend plus de temps à apprendre et moins de temps à prédire. Exemple: Arbres de décision, Na�ve Bayes, ANN.

Types d'algorithmes de classification ML :

Les algorithmes de classification peuvent être divisés en deux catégories principales :

    Modèles linéaires
    • Régression logistique
    • Machines à vecteurs de support
    Modèles non linéaires
    • K-Voisins les plus proches
    • SVM du noyau
    • Na�ve Bayes
    • Classification de l'arbre de décision
    • Classification aléatoire des forêts

Remarque : nous apprendrons les algorithmes ci-dessus dans les chapitres suivants.

Évaluation d'un modèle de classification :

Une fois notre modèle complété, il est nécessaire d’évaluer ses performances ; soit il s'agit d'un modèle de classification ou de régression. Ainsi, pour évaluer un modèle de classification, nous disposons des méthodes suivantes :

1. Perte de journal ou perte d'entropie croisée :

  • Il est utilisé pour évaluer les performances d'un classificateur, dont la sortie est une valeur de probabilité comprise entre 0 et 1.
  • Pour un bon modèle de classification binaire, la valeur de la perte log doit être proche de 0.
  • La valeur de la perte logarithmique augmente si la valeur prévue s'écarte de la valeur réelle.
  • La perte logarithmique inférieure représente la plus grande précision du modèle.
  • Pour la classification binaire, l'entropie croisée peut être calculée comme suit :
 ?(ylog(p)+(1?y)log(1?p)) 

Où y = sortie réelle, p = sortie prévue.

2. Matrice de confusion :

  • La matrice de confusion nous fournit une matrice/tableau en sortie et décrit les performances du modèle.
  • Elle est également connue sous le nom de matrice d’erreur.
  • La matrice est constituée de résultats de prédictions sous une forme résumée, qui présente un nombre total de prédictions correctes et de prédictions incorrectes. La matrice ressemble au tableau ci-dessous :
Réel positif Réel négatif
Prédit positif Vrai positif Faux positif
Négatif prévu Faux négatif Vrai négatif
Algorithme de classification dans l'apprentissage automatique

3. Courbe AUC-ROC :

les bases de Java
  • La courbe ROC signifie Courbe des caractéristiques de fonctionnement du récepteur et AUC signifie Aire sous la courbe .
  • Il s'agit d'un graphique qui montre les performances du modèle de classification à différents seuils.
  • Pour visualiser les performances du modèle de classification multi-classes, nous utilisons la courbe AUC-ROC.
  • La courbe ROC est tracée avec TPR et FPR, où TPR (True Positive Rate) sur l'axe Y et FPR (False Positive Rate) sur l'axe X.

Cas d'utilisation des algorithmes de classification

Les algorithmes de classification peuvent être utilisés à différents endroits. Vous trouverez ci-dessous quelques cas d’utilisation courants des algorithmes de classification :

  • Détection du spam par courrier électronique
  • Reconnaissance de la parole
  • Identifications des cellules tumorales cancéreuses.
  • Classification des drogues
  • Identification biométrique, etc.