logo

Apprentissage automatique non supervisé

Dans le sujet précédent, nous avons appris l'apprentissage automatique supervisé dans lequel les modèles sont entraînés à l'aide de données étiquetées sous la supervision de données d'entraînement. Mais il peut y avoir de nombreux cas dans lesquels nous ne disposons pas de données étiquetées et devons trouver les modèles cachés dans l'ensemble de données donné. Ainsi, pour résoudre de tels types de cas en apprentissage automatique, nous avons besoin de techniques d’apprentissage non supervisé.

Qu’est-ce que l’apprentissage non supervisé ?

Comme son nom l'indique, l'apprentissage non supervisé est une technique d'apprentissage automatique dans laquelle les modèles ne sont pas supervisés à l'aide d'un ensemble de données de formation. Au lieu de cela, les modèles eux-mêmes trouvent les modèles et les informations cachés à partir des données fournies. Cela peut être comparé à l’apprentissage qui a lieu dans le cerveau humain lors de l’apprentissage de nouvelles choses. Il peut être défini comme :

c# dateheure
L'apprentissage non supervisé est un type d'apprentissage automatique dans lequel les modèles sont formés à l'aide d'un ensemble de données non étiquetés et sont autorisés à agir sur ces données sans aucune supervision.

L’apprentissage non supervisé ne peut pas être directement appliqué à un problème de régression ou de classification car contrairement à l’apprentissage supervisé, nous disposons des données d’entrée mais pas de données de sortie correspondantes. Le but de l’apprentissage non supervisé est de trouver la structure sous-jacente de l'ensemble de données, regrouper ces données en fonction de leurs similitudes et représenter cet ensemble de données dans un format compressé .

Exemple: Supposons que l'algorithme d'apprentissage non supervisé reçoive un ensemble de données d'entrée contenant des images de différents types de chats et de chiens. L'algorithme n'est jamais entraîné sur l'ensemble de données donné, ce qui signifie qu'il n'a aucune idée des caractéristiques de l'ensemble de données. La tâche de l’algorithme d’apprentissage non supervisé est d’identifier les caractéristiques de l’image par elles-mêmes. Un algorithme d'apprentissage non supervisé effectuera cette tâche en regroupant l'ensemble de données d'images en groupes en fonction des similitudes entre les images.

Apprentissage automatique supervisé

Pourquoi utiliser l'apprentissage non supervisé ?

Vous trouverez ci-dessous quelques principales raisons qui décrivent l’importance de l’apprentissage non supervisé :

  • L'apprentissage non supervisé est utile pour trouver des informations utiles à partir des données.
  • L’apprentissage non supervisé est très similaire au fait qu’un humain apprend à penser à partir de ses propres expériences, ce qui le rapproche de la véritable IA.
  • L'apprentissage non supervisé fonctionne sur des données non étiquetées et non catégorisées, ce qui rend l'apprentissage non supervisé plus important.
  • Dans le monde réel, nous n’avons pas toujours de données d’entrée avec la sortie correspondante, donc pour résoudre de tels cas, nous avons besoin d’un apprentissage non supervisé.

Fonctionnement de l'apprentissage non supervisé

Le fonctionnement de l’apprentissage non supervisé peut être compris par le diagramme ci-dessous :

Apprentissage automatique supervisé

Ici, nous avons pris des données d'entrée non étiquetées, ce qui signifie qu'elles ne sont pas catégorisées et que les sorties correspondantes ne sont pas non plus fournies. Désormais, ces données d'entrée non étiquetées sont transmises au modèle d'apprentissage automatique afin de l'entraîner. Premièrement, il interprétera les données brutes pour trouver les modèles cachés dans les données, puis appliquera des algorithmes appropriés tels que le clustering k-means, l'arbre de décision, etc.

Une fois qu'il applique l'algorithme approprié, l'algorithme divise les objets de données en groupes en fonction des similitudes et des différences entre les objets.

comment trier un tableau en Java

Types d’algorithmes d’apprentissage non supervisé :

L’algorithme d’apprentissage non supervisé peut être classé en deux types de problèmes :

Apprentissage automatique supervisé
    Regroupement: Le clustering est une méthode de regroupement des objets en clusters de telle sorte que les objets présentant le plus de similitudes restent dans un groupe et ont moins ou pas de similitudes avec les objets d'un autre groupe. L'analyse groupée trouve les points communs entre les objets de données et les catégorise en fonction de la présence et de l'absence de ces points communs.Association: Une règle d'association est une méthode d'apprentissage non supervisée qui est utilisée pour trouver les relations entre les variables dans la grande base de données. Il détermine l'ensemble des éléments qui apparaissent ensemble dans l'ensemble de données. La règle d'association rend la stratégie marketing plus efficace. Par exemple, les personnes qui achètent un article X (supposons un pain) ont également tendance à acheter un article Y (beurre/confiture). Un exemple typique de règle d’association est l’analyse du panier de marché.

Remarque : Nous apprendrons ces algorithmes dans les chapitres suivants.

Algorithmes d’apprentissage non supervisé :

Vous trouverez ci-dessous la liste de quelques algorithmes d’apprentissage non supervisés populaires :

    K-means clustering KNN (k-voisins les plus proches) Regroupement hiérarchique Détection d'une anomalie Les réseaux de neurones Analyse des composantes principales Analyse indépendante des composants Algorithme a priori Décomposition en valeurs singulières

Avantages de l'apprentissage non supervisé

  • L'apprentissage non supervisé est utilisé pour des tâches plus complexes que l'apprentissage supervisé car, dans l'apprentissage non supervisé, nous n'avons pas de données d'entrée étiquetées.
  • L'apprentissage non supervisé est préférable car il est facile d'obtenir des données non étiquetées par rapport aux données étiquetées.

Inconvénients de l’apprentissage non supervisé

  • L’apprentissage non supervisé est intrinsèquement plus difficile que l’apprentissage supervisé car il n’a pas de résultat correspondant.
  • Le résultat de l’algorithme d’apprentissage non supervisé peut être moins précis car les données d’entrée ne sont pas étiquetées et les algorithmes ne connaissent pas à l’avance le résultat exact.