LLE (Incorporation localement linéaire) est une approche non supervisée conçue pour transformer les données de leur espace d'origine de grande dimension en une représentation de moindre dimension, tout en s'efforçant de conserver les caractéristiques géométriques essentielles de la structure de caractéristiques non linéaires sous-jacente. LLE fonctionne en plusieurs étapes clés :
- Premièrement, il construit un graphe des voisins les plus proches pour capturer ces relations locales. Ensuite, il optimise les valeurs de poids pour chaque point de données, dans le but de minimiser l'erreur de reconstruction lors de l'expression d'un point comme une combinaison linéaire de ses voisins. Cette matrice de poids reflète la force des connexions entre les points.
- Ensuite, LLE calcule une représentation dimensionnelle inférieure des données en trouvant vecteurs propres d'une matrice dérivée de la matrice de poids. Ces vecteurs propres représentent les directions les plus pertinentes dans l'espace réduit. Les utilisateurs peuvent spécifier la dimensionnalité souhaitée pour l'espace de sortie et LLE sélectionne les vecteurs propres supérieurs en conséquence.
A titre d'illustration, considérons un Ensemble de données du rouleau suisse , qui est intrinsèquement non linéaire dans son espace de grande dimension. LLE, dans ce cas, s'efforce de projeter cette structure complexe sur un plan de dimension inférieure, en préservant ses propriétés géométriques distinctives tout au long du processus de transformation.
Table des matières
- Implémentation mathématique de l'algorithme LLE
- Algorithme d’intégration localement linéaire
- Paramètres de l'algorithme LLE
- Implémentation de l'intégration localement linéaire
- Avantages du LLE
- Inconvénients du LLE
Implémentation mathématique de l'algorithme LLE
L'idée clé de LLE est que localement, au voisinage de chaque point de données, les données se trouvent approximativement sur un sous-espace linéaire. LLE tente de déplier ou dérouler les données tout en préservant ces relations linéaires locales.
Voici un aperçu mathématique de l’algorithme LLE :
Minimiser: 
Sujet à : 
types de données de référence en Java
Où:
- Xjereprésente le i-ième point de données.
- Dansjesont les poids qui minimisent l'erreur de reconstruction pour le point de données xjeen utilisant ses voisins.
Il vise à trouver une représentation des données de dimension inférieure tout en préservant les relations locales. L'expression mathématique de LLE consiste à minimiser l'erreur de reconstruction de chaque point de données en l'exprimant sous la forme d'une somme pondérée de ses k voisins les plus proches ' contributions. Cette optimisation est soumise à des contraintes garantissant que la somme des poids est égale à 1 pour chaque point de données. L'intégration localement linéaire (LLE) est une technique de réduction de dimensionnalité utilisée dans l'apprentissage automatique et l'analyse de données. Il se concentre sur la préservation des relations locales entre les points de données lors du mappage de données de grande dimension vers un espace de dimension inférieure. Ici, nous expliquerons l'algorithme LLE et ses paramètres.
Algorithme d’intégration localement linéaire
L'algorithme LLE peut être décomposé en plusieurs étapes :
- Sélection du quartier : Pour chaque point de données dans l'espace de grande dimension, LLE identifie ses k voisins les plus proches. Cette étape est cruciale car LLE suppose que chaque point de données peut être bien approximé par une combinaison linéaire de ses voisins.
- Construction de la matrice de poids : LLE calcule un ensemble de poids pour chaque point de données afin de l'exprimer sous la forme d'une combinaison linéaire de ses voisins. Ces poids sont déterminés de manière à minimiser l’erreur de reconstruction. La régression linéaire est souvent utilisée pour trouver ces poids.
- Préservation de la structure globale : Après avoir construit la matrice de poids, LLE vise à trouver une représentation de dimension inférieure des données qui préserve le mieux les relations linéaires locales. Pour ce faire, il recherche un ensemble de coordonnées dans l'espace de dimension inférieure pour chaque point de données qui minimise une fonction de coût. Ce fonction de coût évalue dans quelle mesure chaque point de données peut être représenté par ses voisins.
- Intégration de sortie : Une fois le processus d'optimisation terminé, LLE fournit la représentation finale des données en dimension inférieure. Cette représentation capture la structure essentielle des données tout en réduisant sa dimensionnalité.
Paramètres de l'algorithme LLE
LLE possède quelques paramètres qui influencent son comportement :
- k (Nombre de voisins) : Ce paramètre détermine le nombre de voisins les plus proches pris en compte lors de la construction de la matrice de pondération. Un k plus grand capture des relations plus globales mais peut introduire du bruit. Un k plus petit se concentre sur les relations locales mais peut être sensible aux valeurs aberrantes. La sélection d’une valeur appropriée pour k est essentielle au succès de l’algorithme.
- Dimensionnalité de l'espace de sortie : Vous pouvez spécifier la dimensionnalité de l'espace de dimension inférieure auquel les données seront mappées. Cette solution est souvent choisie en fonction des exigences du problème et du compromis entre complexité informatique et préservation des informations.
- Métrique de distance : LLE s'appuie sur une métrique de distance pour définir la proximité entre les points de données. Les choix courants incluent la distance euclidienne, la distance de Manhattan ou les fonctions de distance personnalisées. Le choix de la métrique de distance peut avoir un impact sur les résultats.
- Régularisation (Facultatif) : Dans certains cas, des conditions de régularisation sont ajoutées à la fonction de coût pour éviter le surajustement. La régularisation peut être utile lorsqu'il s'agit de données bruitées ou lorsque le nombre de voisins est élevé.
- Algorithme d'optimisation (facultatif) : LLE utilise souvent des techniques d'optimisation telles que Décomposition en valeurs singulières (SVD) ou des méthodes de vecteurs propres pour trouver la représentation de dimension inférieure. Ces méthodes d'optimisation peuvent avoir leurs propres paramètres réglables.
LLE (Incorporation Localement Linéaire) représente une avancée significative dans l'analyse structurelle, surpassant les techniques traditionnelles de modélisation de la densité comme APC ou des mélanges d'analyseurs factoriels. La limitation des modèles de densité réside dans leur incapacité à établir de manière cohérente un ensemble de coordonnées globales capables d'intégrer des observations sur l'ensemble de la variété structurelle. Par conséquent, ils s’avèrent inadéquats pour des tâches telles que la génération de projections de faible dimension de l’ensemble de données d’origine. Ces modèles excellent uniquement dans l'identification des caractéristiques linéaires, comme le montre l'image ci-dessous. Cependant, ils ne parviennent pas à capturer des motifs courbes complexes, une capacité inhérente au LLE.
Efficacité informatique améliorée avec LLE. LLE offre une efficacité de calcul supérieure grâce à sa gestion de matrice clairsemée, surpassant les autres algorithmes.
Implémentation de l'intégration localement linéaire
Importation de bibliothèques
Python3
#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding> |
>
>
Le code commence par importer les bibliothèques nécessaires, notamment numpy, matplotlib.pyplot , make_swiss_roll de sklearn.datasets et LocallyLinearEmbedding de sklearn.manifold .
avantages et inconvénients de la technologie
Génération d'un ensemble de données synthétiques (Swiss Roll)
Python3
# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)> |
>
>
Il génère un ensemble de données synthétiques ressemblant à un Swiss Roll à l'aide de la fonction make_swiss_roll de scikit-learn.
n_samples spécifie le nombre de points de données à générer.
n_neighbors définit le nombre de voisins utilisés dans l'algorithme LLE.
Application de l'intégration localement linéaire (LLE)
Python3
# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)> |
>
>
Une instance de l'algorithme LLE est créée avec LocallyLinearEmbedding. Le paramètre n_neighbors détermine le nombre de voisins à prendre en compte lors du processus d'intégration.
L'algorithme LLE est ensuite ajusté aux données originales X en utilisant le fit_transform méthode. Cette étape réduit l'ensemble de données à deux dimensions (n_components=2).
analyseur java
Visualisation des données originales et réduites
Python3
# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()> |
>
>
Sortir:
Incorporation localement linéaire
Dans le deuxième sous-tracé, les données réduites obtenues à partir de LLE (X_reduced) sont visualisées de la même manière que les données d'origine. La couleur des points de données est toujours déterminée par la troisième caractéristique des données d'origine (X[:, 2]).Le plt.tight_layout() La fonction est utilisée pour garantir un espacement approprié entre les sous-parcelles.
Avantages du LLE
La méthode de réduction de dimensionnalité connue sous le nom d'incorporation localement linéaire (LLE) présente de nombreux avantages pour le traitement et la visualisation des données. Voici les principaux avantages de LLE :
- Préservation des structures locales : LLE est excellent pour maintenir les relations ou structures locales dans les données. Il capture avec succès la géométrie inhérente des variétés non linéaires en maintenant des distances par paires entre les points de données proches.
- Gestion de la non-linéarité : LLE a la capacité de capturer des modèles et des structures non linéaires dans les données, contrairement aux techniques linéaires comme Analyse des composants principaux (APC). Lorsque vous travaillez avec des ensembles de données compliqués, courbes ou tordus, cela est particulièrement utile.
- Réduction de dimensionnalité : LLE diminue la dimensionnalité des données tout en préservant ses propriétés fondamentales. En particulier lorsque vous travaillez avec des ensembles de données de grande dimension, cette réduction simplifie la présentation, l'exploration et l'analyse des données.
Inconvénients du LLE
- Malédiction de la dimensionnalité : LLE peut vivre l'expérience malédiction de la dimensionnalité lorsqu'il est utilisé avec des données de très haute dimension, tout comme de nombreuses autres approches de réduction de dimensionnalité. Le nombre de voisins requis pour capturer les interactions locales augmente avec la dimensionnalité, augmentant potentiellement le coût de calcul de l'approche.
- Exigences en matière de mémoire et de calcul : Pour les grands ensembles de données, la création d'une matrice de contiguïté pondérée dans le cadre de LLE peut nécessiter beaucoup de mémoire. L’étape de décomposition des valeurs propres peut également s’avérer complexe sur le plan informatique pour les grands ensembles de données.
- Données aberrantes et bruyantes : LLE est sensible aux anomalies et aux points de données instables. La qualité de l'intégration peut être affectée et les relations linéaires locales peuvent être déformées par des valeurs aberrantes.