logo

Clustering hiérarchique dans l'exploration de données

Le clustering hiérarchique fait référence à une procédure d'apprentissage non supervisée qui détermine des clusters successifs en fonction de clusters préalablement définis. Cela fonctionne en regroupant les données dans une arborescence de clusters. Statistiques de clustering hiérarchique en traitant chaque point de données comme un cluster individuel. Le point de terminaison fait référence à un ensemble différent de clusters, où chaque cluster est différent de l'autre cluster et les objets de chaque cluster sont identiques les uns aux autres.

Il existe deux types de clustering hiérarchique

  • Clustering hiérarchique aggloméré
  • Clustering diviseur

Clustering hiérarchique aggloméré

Le clustering agglomératif est l'un des types de clustering hiérarchique les plus courants utilisés pour regrouper des objets similaires en clusters. Le clustering agglomératif est également connu sous le nom d'AGNES (Agglomerative Nesting). Dans le clustering agglomératif, chaque point de données agit comme un cluster individuel et à chaque étape, les objets de données sont regroupés selon une méthode ascendante. Initialement, chaque objet de données se trouve dans son cluster. A chaque itération, les clusters sont combinés avec différents clusters jusqu'à ce qu'un seul cluster soit formé.

Algorithme de clustering hiérarchique agglomératif

  1. Déterminez la similarité entre les individus et tous les autres groupes. (Trouver la matrice de proximité).
  2. Considérez chaque point de données comme un cluster individuel.
  3. Combinez des clusters similaires.
  4. Recalculez la matrice de proximité pour chaque cluster.
  5. Répétez les étapes 3 et 4 jusqu'à ce que vous obteniez un seul cluster.

Comprenons ce concept à l'aide d'une représentation graphique à l'aide d'un dendrogramme.

Avec l’aide d’une démonstration donnée, nous pouvons comprendre comment fonctionne l’algorithme réel. Ici, aucun calcul n'a été effectué, la proximité entre les clusters est supposée.

Supposons que nous ayons six points de données différents P, Q, R, S, T, V.

Clustering hiérarchique dans l'exploration de données

Étape 1:

Considérez chaque alphabet (P, Q, R, S, T, V) comme un cluster individuel et trouvez la distance entre le cluster individuel et tous les autres clusters.

connectivité Java

Étape 2:

Maintenant, fusionnez les clusters comparables en un seul cluster. Disons que le cluster Q et le cluster R sont similaires afin que nous puissions les fusionner dans la deuxième étape. Finalement, on obtient les clusters [ (P), (QR), (ST), (V)]

Acteur Rekha

Étape 3:

Ici, nous recalculons la proximité selon l'algorithme et combinons les deux clusters les plus proches [(ST), (V)] ensemble pour former de nouveaux clusters comme [(P), (QR), (STV)]

Étape 4:

Répétez le même processus. Les clusters STV et PQ sont comparables et regroupés pour former un nouveau cluster. Nous avons maintenant [(P), (QQRSTV)].

Étape 5 :

Enfin, les deux clusters restants sont fusionnés pour former un seul cluster [(PQRSTV)]

Clustering hiérarchique qui divise

Le clustering hiérarchique divisionnaire est exactement le contraire du clustering hiérarchique aggloméré. Dans le clustering hiérarchique divisif, tous les points de données sont considérés comme un cluster individuel et, à chaque itération, les points de données qui ne sont pas similaires sont séparés du cluster. Les points de données séparés sont traités comme un cluster individuel. Finalement, nous nous retrouvons avec N clusters.

Clustering hiérarchique dans l'exploration de données

Avantages du clustering hiérarchique

  • Il est simple à mettre en œuvre et donne le meilleur résultat dans certains cas.
  • C'est simple et aboutit à une hiérarchie, une structure qui contient plus d'informations.
  • Il n’est pas nécessaire que nous préspécifiions le nombre de clusters.

Inconvénients du clustering hiérarchique

  • Cela brise les gros clusters.
  • Il est difficile de gérer des clusters de différentes tailles et des formes convexes.
  • Il est sensible au bruit et aux valeurs aberrantes.
  • L'algorithme ne peut jamais être modifié ou supprimé une fois qu'il a été effectué précédemment.