APPRENTISSAGE SUPERVISÉ ET NON SUPERVISÉ

L'apprentissage automatique est un domaine de l'informatique qui donne aux ordinateurs la capacité d'apprendre sans être explicitement programmés. L’apprentissage supervisé et l’apprentissage non supervisé sont deux principaux types de apprentissage automatique .

Dans enseignement supervisé , la machine est entraînée sur un ensemble de données étiquetées, ce qui signifie que les données d'entrée sont associées à la sortie souhaitée. La machine apprend ensuite à prédire la sortie des nouvelles données d’entrée. L'apprentissage supervisé est souvent utilisé pour des tâches telles que la classification, la régression et la détection d'objets.

Dans l’apprentissage non supervisé, la machine est entraînée sur un ensemble de données non étiquetées, ce qui signifie que les données d’entrée ne sont pas associées à la sortie souhaitée. La machine apprend alors à trouver des modèles et des relations dans les données. L'apprentissage non supervisé est souvent utilisé pour des tâches telles que regroupement , la réduction de la dimensionnalité et la détection des anomalies.

Qu’est-ce que l’apprentissage supervisé ?

L'apprentissage supervisé est un type de algorithme d'apprentissage automatique qui apprend à partir de données étiquetées. Les données étiquetées sont des données qui ont été étiquetées avec une réponse ou une classification correcte.

L'apprentissage supervisé, comme son nom l'indique, comporte la présence d'un superviseur en tant qu'enseignant. L'apprentissage supervisé consiste à enseigner ou à entraîner la machine à l'aide de données bien étiquetées. Ce qui signifie que certaines données sont déjà étiquetées avec la bonne réponse. Après cela, la machine reçoit un nouvel ensemble d'exemples (données) afin que l'algorithme d'apprentissage supervisé analyse les données d'entraînement (ensemble d'exemples d'entraînement) et produise un résultat correct à partir des données étiquetées.

Par exemple, un ensemble de données étiqueté d'images d'éléphant, de chameau et de vache aurait chaque image étiquetée avec Elephant , Camelor Cow.

Enseignement supervisé

Points clés:

L’apprentissage supervisé consiste à entraîner une machine à partir de données étiquetées.
Les données étiquetées sont constituées d'exemples avec la réponse ou la classification correcte.
La machine apprend la relation entre les entrées (images de fruits) et les sorties (étiquettes de fruits).
La machine entraînée peut alors faire des prédictions sur de nouvelles données non étiquetées.

Exemple:

Disons que vous avez une corbeille de fruits que vous souhaitez identifier. La machine analyserait d’abord l’image pour en extraire des caractéristiques telles que sa forme, sa couleur et sa texture. Ensuite, il comparerait ces caractéristiques à celles des fruits dont il a déjà pris connaissance. Si les caractéristiques de la nouvelle image ressemblent le plus à celles d’une pomme, la machine prédira que le fruit est une pomme.

tutoriel sur les microservices

Par exemple , supposons que l’on vous donne un panier rempli de différentes sortes de fruits. Maintenant, la première étape consiste à entraîner la machine avec tous les différents fruits un par un comme ceci :

Si la forme de l'objet est arrondie et présente une dépression au sommet et est de couleur rouge, alors il sera étiqueté comme suit : Pomme .
Si la forme de l'objet est un long cylindre incurvé de couleur vert-jaune, alors il sera étiqueté comme suit : Banane .

Supposons maintenant qu'après avoir entraîné les données, vous ayez donné un nouveau fruit séparé, par exemple une banane, dans le panier, et que vous ayez demandé de l'identifier.

Puisque la machine a déjà appris les choses des données précédentes et doit cette fois les utiliser à bon escient. Il classera d'abord le fruit avec sa forme et sa couleur, confirmera le nom du fruit comme BANANE et le placera dans la catégorie Banane. Ainsi, la machine apprend les choses à partir des données d'entraînement (panier contenant des fruits) et applique ensuite les connaissances pour tester les données (nouveaux fruits).

Types d'apprentissage supervisé

L’apprentissage supervisé est classé en deux catégories d’algorithmes :

fonction de sous-chaîne java

Régression : Un problème de régression survient lorsque la variable de sortie est une valeur réelle, telle que les dollars ou le poids.
Classification : Un problème de classification survient lorsque la variable de sortie est une catégorie, telle que Rouge ou Bleu, maladie ou aucune maladie.

L’apprentissage supervisé traite ou apprend avec des données étiquetées. Cela implique que certaines données sont déjà étiquetées avec la bonne réponse.

1- Régression

La régression est un type d'apprentissage supervisé utilisé pour prédire des valeurs continues, telles que les prix de l'immobilier, les cours des actions ou le taux de désabonnement des clients. Les algorithmes de régression apprennent une fonction qui mappe les caractéristiques d'entrée à la valeur de sortie.

Certains communs algorithmes de régression inclure:

Régression linéaire
Régression polynomiale
Régression de la machine à vecteurs de support
Régression de l'arbre de décision
Régression de forêt aléatoire

2- Classement

La classification est un type d'apprentissage supervisé utilisé pour prédire des valeurs catégorielles, par exemple si un client va se désinscrire ou non, si un e-mail est du spam ou non, ou si une image médicale montre ou non une tumeur. Les algorithmes de classification apprennent une fonction qui mappe les entités d'entrée à une distribution de probabilité sur les classes de sortie.

Certains communs algorithmes de classification inclure:

Régression logistique
Machines à vecteurs de support
Arbres de décision
Forêts aléatoires
Baye naïf

Évaluation des modèles d'apprentissage supervisé

L'évaluation des modèles d'apprentissage supervisé est une étape importante pour garantir que le modèle est précis et généralisable. Il existe un certain nombre de différents métrique qui peuvent être utilisés pour évaluer les modèles d’apprentissage supervisé, mais parmi les plus courants figurent :

Pour la régression

Erreur quadratique moyenne (MSE) : MSE mesure la différence quadratique moyenne entre les valeurs prédites et les valeurs réelles. Des valeurs MSE inférieures indiquent de meilleures performances du modèle.
Erreur quadratique moyenne (RMSE) : RMSE est la racine carrée de MSE, représentant l'écart type des erreurs de prédiction. Semblable au MSE, des valeurs RMSE inférieures indiquent de meilleures performances du modèle.
Erreur absolue moyenne (MAE) : MAE mesure la différence absolue moyenne entre les valeurs prédites et les valeurs réelles. Il est moins sensible aux valeurs aberrantes que le MSE ou le RMSE.
R-carré (Coefficient de Détermination) : Le R au carré mesure la proportion de la variance de la variable cible qui est expliquée par le modèle. Des valeurs R au carré plus élevées indiquent un meilleur ajustement du modèle.

Pour le classement

Précision: La précision est le pourcentage de prédictions que le modèle fait correctement. Il est calculé en divisant le nombre de prédictions correctes par le nombre total de prédictions.
Précision: La précision est le pourcentage de prédictions positives faites par le modèle qui sont réellement correctes. Il est calculé en divisant le nombre de vrais positifs par le nombre total de prédictions positives.
Rappel: Le rappel est le pourcentage de tous les exemples positifs que le modèle identifie correctement. Il est calculé en divisant le nombre de vrais positifs par le nombre total d’exemples positifs.
Note F1 : Le score F1 est une moyenne pondérée de précision et de rappel. Il est calculé en prenant la moyenne harmonique de précision et de rappel.
Matrice de confusion : Une matrice de confusion est un tableau qui montre le nombre de prédictions pour chaque classe, ainsi que les étiquettes de classe réelles. Il peut être utilisé pour visualiser les performances du modèle et identifier les domaines dans lesquels le modèle rencontre des difficultés.

Applications de l’apprentissage supervisé

L’apprentissage supervisé peut être utilisé pour résoudre une grande variété de problèmes, notamment :

Filtrage anti-spam : Des algorithmes d'apprentissage supervisé peuvent être formés pour identifier et classer les courriers indésirables en fonction de leur contenu, aidant ainsi les utilisateurs à éviter les messages indésirables.
Classement des images : L'apprentissage supervisé peut classer automatiquement les images en différentes catégories, telles que les animaux, les objets ou les scènes, facilitant ainsi les tâches telles que la recherche d'images, la modération de contenu et les recommandations de produits basées sur des images.
Diagnostic médical: L'apprentissage supervisé peut faciliter le diagnostic médical en analysant les données des patients, telles que les images médicales, les résultats des tests et les antécédents du patient, afin d'identifier des modèles suggérant des maladies ou des affections spécifiques.
Détection de fraude: Les modèles d'apprentissage supervisé peuvent analyser les transactions financières et identifier les modèles indiquant une activité frauduleuse, aidant ainsi les institutions financières à prévenir la fraude et à protéger leurs clients.
Traitement du langage naturel (NLP) : L'apprentissage supervisé joue un rôle crucial dans les tâches de PNL, notamment l'analyse des sentiments, la traduction automatique et le résumé de texte, permettant aux machines de comprendre et de traiter efficacement le langage humain.

Avantages de l'apprentissage supervisé

L'apprentissage supervisé permet de collecter des données et produit des données issues d'expériences antérieures.
Aide à optimiser les critères de performance à l’aide de l’expérience.
L’apprentissage automatique supervisé aide à résoudre divers types de problèmes de calcul réels.
Il effectue des tâches de classification et de régression.
Il permet d'estimer ou de mapper le résultat sur un nouvel échantillon.
Nous avons un contrôle total sur le choix du nombre de classes que nous souhaitons dans les données d'entraînement.

Inconvénients de l’apprentissage supervisé

Classer le Big Data peut s’avérer difficile.
La formation à l’apprentissage supervisé nécessite beaucoup de temps de calcul. Cela demande donc beaucoup de temps.
L’apprentissage supervisé ne peut pas gérer toutes les tâches complexes du Machine Learning.
Le temps de calcul est vaste pour l’apprentissage supervisé.
Cela nécessite un ensemble de données étiquetées.
Cela nécessite un processus de formation.

Qu’est-ce que l’apprentissage non supervisé ?

L'apprentissage non supervisé est un type d'apprentissage automatique qui apprend à partir de données non étiquetées. Cela signifie que les données n’ont aucune étiquette ou catégorie préexistante. Le but de l’apprentissage non supervisé est de découvrir des modèles et des relations dans les données sans aucune orientation explicite.

L’apprentissage non supervisé est la formation d’une machine utilisant des informations qui ne sont ni classifiées ni étiquetées et permettant à l’algorithme d’agir sur ces informations sans guidage. Ici, la tâche de la machine est de regrouper les informations non triées selon des similitudes, des modèles et des différences sans aucune formation préalable des données.

tableau de tri en Java

Contrairement à l’apprentissage supervisé, aucun enseignant n’est fourni, ce qui signifie qu’aucune formation ne sera dispensée à la machine. Par conséquent, la machine est limitée à trouver elle-même la structure cachée dans les données non étiquetées.

Vous pouvez utiliser l’apprentissage non supervisé pour examiner les données animales recueillies et distinguer plusieurs groupes en fonction des traits et des actions des animaux. Ces regroupements peuvent correspondre à diverses espèces animales, vous permettant ainsi de catégoriser les créatures sans dépendre d'étiquettes déjà existantes.

Apprentissage non supervisé

Points clés

L'apprentissage non supervisé permet au modèle de découvrir des modèles et des relations dans des données non étiquetées.
Les algorithmes de clustering regroupent des points de données similaires en fonction de leurs caractéristiques inhérentes.
L'extraction de fonctionnalités capture les informations essentielles des données, permettant au modèle d'établir des distinctions significatives.
L'association d'étiquettes attribue des catégories aux clusters en fonction des modèles et des caractéristiques extraits.

Exemple

Imaginez que vous disposiez d'un modèle d'apprentissage automatique entraîné sur un vaste ensemble de données d'images non étiquetées, contenant à la fois des chiens et des chats. Le modèle n’a jamais vu d’image de chien ou de chat auparavant, et il n’a aucune étiquette ou catégorie préexistante pour ces animaux. Votre tâche consiste à utiliser l'apprentissage non supervisé pour identifier les chiens et les chats dans une nouvelle image invisible.

Par exemple , supposons qu'on lui donne une image représentant à la fois des chiens et des chats qu'il n'a jamais vus.

Ainsi, la machine n’a aucune idée des caractéristiques des chiens et des chats, nous ne pouvons donc pas la classer dans la catégorie « chiens et chats ». Mais il peut les classer en fonction de leurs similitudes, modèles et différences, c'est-à-dire que nous pouvons facilement classer l'image ci-dessus en deux parties. Le premier peut contenir toutes les photos ayant chiens en eux et la deuxième partie peut contenir toutes les photos ayant chats en eux. Ici, vous n’avez rien appris auparavant, ce qui signifie pas de données de formation ni d’exemples.

Cela permet au modèle de fonctionner de manière autonome pour découvrir des modèles et des informations qui n'étaient pas détectés auparavant. Il s'agit principalement de données non étiquetées.

Types d'apprentissage non supervisé

L’apprentissage non supervisé est classé en deux catégories d’algorithmes :

Regroupement : Un problème de clustering est celui où vous souhaitez découvrir les regroupements inhérents aux données, comme le regroupement des clients par comportement d'achat.
Association : Un problème d'apprentissage de règles d'association est le cas où vous souhaitez découvrir des règles qui décrivent de grandes parties de vos données, par exemple, les personnes qui achètent X ont également tendance à acheter Y.

Regroupement

Le clustering est un type d’apprentissage non supervisé utilisé pour regrouper des points de données similaires. Algorithmes de clustering fonctionnent en déplaçant de manière itérative les points de données plus près de leurs centres de cluster et plus loin des points de données dans d'autres clusters.

Exclusif (partitionnement)
Agglomératif
Chevauchement
Probabiliste

Types de clustering : -

Classification hiérarchique
K-means clustering
Analyse des composants principaux
Décomposition en valeurs singulières
Analyse indépendante des composants
Modèles de mélange gaussien (GMM)
Regroupement spatial basé sur la densité des applications avec bruit (DBSCAN)

Apprentissage des règles d'association

L'apprentissage des règles d'association est un type d'apprentissage non supervisé utilisé pour identifier des modèles dans des données. Règle d'association les algorithmes d'apprentissage fonctionnent en trouvant des relations entre différents éléments d'un ensemble de données.

Certains algorithmes d'apprentissage de règles d'association courants incluent :

Algorithme a priori
Eclat Algorithm
Algorithme de croissance FP

Évaluation des modèles d'apprentissage non supervisés

L'évaluation des modèles d'apprentissage non supervisés est une étape importante pour garantir que le modèle est efficace et utile. Cependant, cela peut s’avérer plus difficile que l’évaluation de modèles d’apprentissage supervisé, car il n’existe pas de données de vérité terrain auxquelles comparer les prédictions du modèle.

Il existe un certain nombre de mesures différentes qui peuvent être utilisées pour évaluer les modèles d’apprentissage non supervisé, mais parmi les plus courantes figurent :

Note des silhouettes : Le score silhouette mesure dans quelle mesure chaque point de données est regroupé avec ses propres membres de cluster et séparé des autres clusters. Il varie de -1 à 1, les scores plus élevés indiquant un meilleur regroupement.
Score Calinski-Harabasz : Le score de Calinski-Harabasz mesure le rapport entre la variance entre clusters et la variance au sein des clusters. Il va de 0 à l’infini, les scores les plus élevés indiquant un meilleur regroupement.
Indice Rand ajusté : L'indice Rand ajusté mesure la similarité entre deux regroupements. Il varie de -1 à 1, les scores plus élevés indiquant des regroupements plus similaires.
Indice Davies-Bouldin : L'indice Davies-Bouldin mesure la similarité moyenne entre les clusters. Il va de 0 à l’infini, les scores les plus faibles indiquant un meilleur regroupement.
Note F1 : Le score F1 est une moyenne pondérée de précision et de rappel, deux mesures couramment utilisées dans l'apprentissage supervisé pour évaluer les modèles de classification. Cependant, le score F1 peut également être utilisé pour évaluer des modèles d’apprentissage non supervisés, tels que les modèles de clustering.

Application d'apprentissage non supervisé

L’apprentissage non supervisé peut être utilisé pour résoudre une grande variété de problèmes, notamment :

Détection d'anomalies : l'apprentissage non supervisé peut identifier des modèles inhabituels ou des écarts par rapport au comportement normal des données, permettant ainsi la détection de fraudes, d'intrusions ou de pannes du système.
Découverte scientifique : l'apprentissage non supervisé peut révéler des relations et des modèles cachés dans les données scientifiques, conduisant à de nouvelles hypothèses et connaissances dans divers domaines scientifiques.
Systèmes de recommandation : l'apprentissage non supervisé peut identifier des modèles et des similitudes dans le comportement et les préférences des utilisateurs afin de recommander des produits, des films ou de la musique qui correspondent à leurs intérêts.
Segmentation des clients : l'apprentissage non supervisé peut identifier des groupes de clients présentant des caractéristiques similaires, permettant aux entreprises de cibler les campagnes marketing et d'améliorer plus efficacement le service client.
Analyse d'images : l'apprentissage non supervisé peut regrouper les images en fonction de leur contenu, facilitant ainsi les tâches telles que la classification des images, la détection d'objets et la récupération d'images.

Avantages d'apprentissage non supervisé

Il n’est pas nécessaire que les données d’entraînement soient étiquetées.
La réduction de la dimensionnalité peut être facilement réalisée en utilisant un apprentissage non supervisé.
Capable de trouver des modèles jusqu’alors inconnus dans les données.
L'apprentissage non supervisé peut vous aider à obtenir des informations à partir de données non étiquetées que vous n'auriez peut-être pas pu obtenir autrement.
L’apprentissage non supervisé permet de trouver des modèles et des relations dans les données sans qu’on leur dise quoi rechercher. Cela peut vous aider à apprendre de nouvelles choses sur vos données.

Désavantages d'apprentissage non supervisé

Difficile de mesurer l’exactitude ou l’efficacité en raison du manque de réponses prédéfinies lors de la formation.
Les résultats sont souvent moins précis.
L'utilisateur doit passer du temps à interpréter et à étiqueter les classes qui suivent cette classification.
L'apprentissage non supervisé peut être sensible à la qualité des données, notamment aux valeurs manquantes, aux valeurs aberrantes et aux données bruitées.
Sans données étiquetées, il peut être difficile d’évaluer les performances des modèles d’apprentissage non supervisés, ce qui rend difficile l’évaluation de leur efficacité.

Apprentissage automatique supervisé ou non supervisé

Paramètres	Apprentissage automatique supervisé	Apprentissage automatique non supervisé
Des données d'entrée	Les algorithmes sont entraînés à l’aide de données étiquetées.	Les algorithmes sont utilisés sur des données qui ne sont pas étiquetées
Complexité informatique	Méthode plus simple	Complexe informatique
Précision	Haute précision	Moins précis
Nombre de cours	Le nombre de classes est connu	Le nombre de classes n'est pas connu
L'analyse des données	Utilise l'analyse hors ligne	Utilise l'analyse des données en temps réel
Algorithmes utilisés	Régression linéaire et logistique, forêt aléatoire, classification multi-classes, arbre de décision, machine à vecteurs de support, réseau neuronal, etc. structure dans la structure des données	Clustering K-Means, clustering hiérarchique, KNN, algorithme Apriori, etc.
Sortir	Le résultat souhaité est donné.	Le résultat souhaité n’est pas donné.
Données d'entraînement	Utilisez les données d'entraînement pour déduire le modèle.	Aucune donnée de formation n'est utilisée.
Modèle complexe	Il n’est pas possible d’apprendre des modèles plus vastes et plus complexes qu’avec l’apprentissage supervisé.	Il est possible d’apprendre des modèles plus grands et plus complexes grâce à un apprentissage non supervisé.
Modèle	Nous pouvons tester notre modèle.	Nous ne pouvons pas tester notre modèle.
Appelé comme	L’apprentissage supervisé est également appelé classification.	L’apprentissage non supervisé est également appelé clustering.
Exemple	Exemple : Reconnaissance optique de caractères.	Exemple : Trouver un visage dans une image.
Surveillance	l'apprentissage supervisé a besoin d'une supervision pour entraîner le modèle.	L'apprentissage non supervisé ne nécessite aucune supervision pour entraîner le modèle. mylivecricket pour le cricket en direct

Conclusion

L’apprentissage supervisé et non supervisé sont deux outils puissants qui peuvent être utilisés pour résoudre une grande variété de problèmes. L’apprentissage supervisé convient bien aux tâches dont le résultat souhaité est connu, tandis que l’apprentissage non supervisé convient bien aux tâches dont le résultat souhaité est inconnu.

Foire aux questions (FAQ)

1. Quelle est la différence entre le langage machine supervisé et non supervisé ?

L’apprentissage supervisé et non supervisé sont deux approches fondamentales de l’apprentissage automatique qui diffèrent par leurs données de formation et leurs objectifs d’apprentissage.

Enseignement supervisé implique la formation d'un modèle d'apprentissage automatique sur un ensemble de données étiqueté, où chaque point de données a une étiquette ou une valeur de sortie correspondante. L'algorithme apprend à mapper les données d'entrée sur la sortie souhaitée, ce qui lui permet de faire des prédictions sur de nouvelles données invisibles.

Apprentissage non supervisé , d'autre part, traite des ensembles de données non étiquetés, où les points de données n'ont pas d'étiquettes ou de valeurs de sortie associées.

2. Qu’est-ce que l’apprentissage supervisé ?

L'apprentissage supervisé est un type d'apprentissage automatique dans lequel l'algorithme est formé sur un ensemble de données étiqueté, où chaque point de données a une étiquette ou une valeur de sortie correspondante. L'algorithme apprend à mapper les données d'entrée sur la sortie souhaitée, ce qui lui permet de faire des prédictions sur de nouvelles données invisibles.

3. Quels sont les algorithmes d’apprentissage supervisé courants ?

Les algorithmes d’apprentissage supervisé courants incluent :

Classification: Utilisé pour attribuer des catégories aux points de données. Les exemples incluent les machines à vecteurs de support (SVM), la régression logistique et les arbres de décision.

Régression: Utilisé pour prédire des valeurs numériques continues. Les exemples incluent la régression linéaire, la régression polynomiale et la régression de crête.

4. Quels sont les algorithmes courants d’apprentissage non supervisé ?

Les algorithmes d’apprentissage non supervisés courants incluent :

Regroupement : Regrouper les points de données en clusters en fonction de leur similarité. Les exemples incluent le clustering k-means et le clustering hiérarchique.

Réduction de dimensionnalité : Réduire le nombre de fonctionnalités dans un ensemble de données tout en préservant les informations les plus importantes. Les exemples incluent l’analyse en composantes principales (PCA) et les auto-encodeurs.

5. Qu’est-ce que l’apprentissage non supervisé ?

L'apprentissage non supervisé est un type d'apprentissage automatique dans lequel l'algorithme est formé sur un ensemble de données non étiqueté, où les points de données n'ont pas d'étiquettes ou de valeurs de sortie correspondantes. L'algorithme apprend à identifier des modèles et des structures dans les données sans conseils explicites.

6. Quand utiliser l’apprentissage supervisé ou non ?

Utilisez l’apprentissage supervisé lorsque vous disposez d’un ensemble de données étiqueté et que vous souhaitez faire des prédictions pour de nouvelles données. Utilisez l'apprentissage non supervisé lorsque vous disposez d'un ensemble de données non étiqueté et que vous souhaitez identifier des modèles ou des structures dans les données.

TechCodeview