logo

Clustering dans l'apprentissage automatique

Le clustering ou l'analyse de cluster est une technique d'apprentissage automatique qui regroupe l'ensemble de données non étiqueté. On peut le définir comme «Une façon de regrouper les points de données en différents clusters, constitués de points de données similaires. Les objets présentant des similitudes possibles restent dans un groupe qui a moins ou pas de similitudes avec un autre groupe.

Pour ce faire, il recherche des modèles similaires dans l'ensemble de données non étiquetés, tels que la forme, la taille, la couleur, le comportement, etc., et les divise selon la présence et l'absence de ces modèles similaires.

C'est un apprentissage non supervisé méthode, donc aucune supervision n’est fournie à l’algorithme, et il traite l’ensemble de données non étiqueté.

Après avoir appliqué cette technique de clustering, chaque cluster ou groupe reçoit un ID de cluster. Le système ML peut utiliser cet identifiant pour simplifier le traitement d'ensembles de données volumineux et complexes.

La technique du clustering est couramment utilisée pour analyse de données statistiques.

Remarque : le clustering est quelque part similaire au algorithme de classification , mais la différence réside dans le type d'ensemble de données que nous utilisons. En classification, nous travaillons avec l'ensemble de données étiqueté, tandis qu'en clustering, nous travaillons avec l'ensemble de données non étiqueté.

Exemple : Comprenons la technique de clustering avec l'exemple réel de Mall : lorsque nous visitons un centre commercial, nous pouvons observer que les éléments ayant un usage similaire sont regroupés. Comme les t-shirts sont regroupés dans une section et les pantalons dans d'autres sections, de même, dans les sections de légumes, les pommes, les bananes, les mangues, etc., sont regroupées dans des sections séparées, afin que nous puissions facilement trouver les choses. La technique de clustering fonctionne également de la même manière. D'autres exemples de regroupement consistent à regrouper des documents en fonction du sujet.

La technique de clustering peut être largement utilisée dans diverses tâches. Certaines utilisations les plus courantes de cette technique sont :

  • Segmentation du marché
  • Analyse des données statistiques
  • Analyse des réseaux sociaux
  • Segmentation d'images
  • Détection d'anomalies, etc.

En dehors de ces usages généraux, il est utilisé par les Amazone dans son système de recommandation pour fournir les recommandations selon la recherche passée de produits. Netflix utilise également cette technique pour recommander les films et les séries Web à ses utilisateurs en fonction de l'historique des vidéos regardées.

Le diagramme ci-dessous explique le fonctionnement de l'algorithme de clustering. On peut voir que les différents fruits sont répartis en plusieurs groupes aux propriétés similaires.

Clustering dans l'apprentissage automatique

Types de méthodes de clustering

Les méthodes de clustering sont largement divisées en Clustering dur (le point de données appartient à un seul groupe) et Clustering souple (les points de données peuvent également appartenir à un autre groupe). Mais il existe également d’autres approches de clustering. Vous trouverez ci-dessous les principales méthodes de clustering utilisées en Machine Learning :

    Partitionnement, clustering Clustering basé sur la densité Clustering basé sur un modèle de distribution Classification hiérarchique Clustering flou

Partitionnement, clustering

Il s'agit d'un type de clustering qui divise les données en groupes non hiérarchiques. Il est également connu sous le nom de méthode basée sur le centroïde . L'exemple le plus courant de partitionnement en cluster est le Algorithme de clustering K-Means .

Dans ce type, l'ensemble de données est divisé en un ensemble de k groupes, où K est utilisé pour définir le nombre de groupes prédéfinis. Le centre du cluster est créé de telle manière que la distance entre les points de données d'un cluster est minimale par rapport au centre de gravité d'un autre cluster.

Clustering dans l'apprentissage automatique

Clustering basé sur la densité

La méthode de regroupement basée sur la densité connecte les zones très denses en clusters, et les distributions de forme arbitraire sont formées tant que la région dense peut être connectée. Cet algorithme le fait en identifiant différents clusters dans l'ensemble de données et connecte les zones à haute densité en clusters. Les zones denses de l’espace de données sont séparées les unes des autres par des zones plus clairsemées.

Ces algorithmes peuvent avoir des difficultés à regrouper les points de données si l'ensemble de données a des densités variables et des dimensions élevées.

Clustering dans l'apprentissage automatique

Clustering basé sur un modèle de distribution

Dans la méthode de regroupement basée sur un modèle de distribution, les données sont divisées en fonction de la probabilité d'appartenance d'un ensemble de données à une distribution particulière. Le regroupement se fait en supposant certaines distributions communément Distribution gaussienne .

L'exemple de ce type est le Algorithme de clustering d'attente-maximisation qui utilise des modèles de mélange gaussien (GMM).

Clustering dans l'apprentissage automatique

Classification hiérarchique

Le clustering hiérarchique peut être utilisé comme alternative au clustering partitionné car il n'est pas nécessaire de spécifier à l'avance le nombre de clusters à créer. Dans cette technique, l'ensemble de données est divisé en clusters pour créer une structure arborescente, également appelée dendrogramme . Les observations ou n'importe quel nombre de grappes peuvent être sélectionnées en coupant l'arbre au bon niveau. L'exemple le plus courant de cette méthode est la Algorithme hiérarchique agglomératif .

Clustering dans l'apprentissage automatique

Clustering flou

Le clustering flou est un type de méthode logicielle dans laquelle un objet de données peut appartenir à plusieurs groupes ou clusters. Chaque ensemble de données possède un ensemble de coefficients d'appartenance, qui dépendent du degré d'appartenance à un cluster. Algorithme C-means flou est l'exemple de ce type de clustering ; il est parfois également connu sous le nom d'algorithme Fuzzy k-means.

Algorithmes de clustering

Les algorithmes de clustering peuvent être divisés en fonction de leurs modèles expliqués ci-dessus. Il existe différents types d’algorithmes de clustering publiés, mais seuls quelques-uns sont couramment utilisés. L'algorithme de clustering est basé sur le type de données que nous utilisons. Par exemple, certains algorithmes doivent deviner le nombre de clusters dans l'ensemble de données donné, tandis que d'autres doivent trouver la distance minimale entre l'observation de l'ensemble de données.

Nous discutons ici principalement des algorithmes de clustering populaires qui sont largement utilisés dans l'apprentissage automatique :

    Algorithme K-Means :L'algorithme k-means est l'un des algorithmes de clustering les plus populaires. Il classe l'ensemble de données en divisant les échantillons en différents groupes de variances égales. Le nombre de clusters doit être spécifié dans cet algorithme. C'est rapide avec moins de calculs nécessaires, avec la complexité linéaire de Sur). Algorithme de décalage moyen :L'algorithme de décalage moyen tente de trouver les zones denses dans la densité lisse des points de données. Il s'agit d'un exemple de modèle basé sur le centroïde, qui travaille à mettre à jour les candidats pour que le centroïde soit le centre des points dans une région donnée.Algorithme DBSCAN :Il se tient pour le clustering spatial basé sur la densité d'applications avec bruit . Il s’agit d’un exemple de modèle basé sur la densité similaire au décalage moyen, mais présentant des avantages remarquables. Dans cet algorithme, les zones de forte densité sont séparées par les zones de faible densité. Pour cette raison, les clusters peuvent avoir n’importe quelle forme arbitraire.Clustering d'espérance-maximisation à l'aide de GMM :Cet algorithme peut être utilisé comme alternative à l'algorithme des k-moyennes ou pour les cas où les K-means peuvent échouer. Dans GMM, on suppose que les points de données sont distribués de manière gaussienne.Algorithme hiérarchique aggloméré :L'algorithme hiérarchique agglomératif effectue le regroupement hiérarchique ascendant. Dans ce cadre, chaque point de données est traité au départ comme un seul cluster, puis successivement fusionné. La hiérarchie des clusters peut être représentée sous forme d'arborescence.Propagation par affinité :Il diffère des autres algorithmes de clustering car il ne nécessite pas de spécifier le nombre de clusters. En cela, chaque point de données envoie un message entre la paire de points de données jusqu'à convergence. Il a O(N2T) la complexité temporelle, qui est le principal inconvénient de cet algorithme.

Applications du clustering

Vous trouverez ci-dessous quelques applications communément connues de la technique de clustering dans le Machine Learning :

    Dans Identification des cellules cancéreuses :Les algorithmes de clustering sont largement utilisés pour l’identification des cellules cancéreuses. Il divise les ensembles de données cancéreuses et non cancéreuses en différents groupes.Dans les moteurs de recherche :Les moteurs de recherche travaillent également sur la technique du clustering. Le résultat de la recherche apparaît en fonction de l'objet le plus proche de la requête de recherche. Il le fait en regroupant des objets de données similaires dans un groupe éloigné des autres objets différents. Le résultat précis d'une requête dépend de la qualité de l'algorithme de clustering utilisé.Segmentation de la clientèle:Il est utilisé dans les études de marché pour segmenter les clients en fonction de leurs choix et préférences.En biologie :Il est utilisé dans la filière biologie pour classer différentes espèces de plantes et d'animaux à l'aide de la technique de reconnaissance d'images.En matière d'utilisation des terres :La technique de regroupement est utilisée pour identifier la zone d'utilisation des terres similaire dans la base de données SIG. Cela peut être très utile pour déterminer dans quel but un terrain particulier doit être utilisé, cela signifie à quel but il est le plus approprié.