OBTENEZ DES VALEURS UNIQUES À PARTIR D'UNE COLONNE DANS PANDAS DATAFRAME

La fonction unique() supprime toutes les valeurs en double sur une colonne et renvoie une valeur unique pour plusieurs valeurs identiques. Dans cet article, nous verrons comment obtenir des valeurs uniques à partir d'une colonne dans Cadre de données Pandas .

Création d'une trame de données Pandas avec des éléments en double

Créez un exemple de trame de données Pandas avec un dictionnaire de listes, disons que les noms de colonnes sont A, B, C, D et E avec des éléments en double.

Python3

bash lire le fichier

# Import pandas package> import> pandas as pd> # create a dictionary with five fields each> data>=> {> >'A'>: [>'A1'>,>'A2'>,>'A3'>,>'A4'>,>'A5'>],> >'B'>: [>'B1'>,>'B2'>,>'B3'>,>'B4'>,>'B4'>],> >'C'>: [>'C1'>,>'C2'>,>'C3'>,>'C3'>,>'C3'>],> >'D'>: [>'D1'>,>'D2'>,>'D2'>,>'D2'>,>'D2'>],> >'E'>: [>'E1'>,>'E1'>,>'E1'>,>'E1'>,>'E1'>]}> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)>

Vous trouverez ci-dessous quelques exemples grâce auxquels nous pouvons obtenir les valeurs uniques d'une colonne dans cette trame de données.

Obtenez les valeurs uniques de la colonne « B »
Obtenez les valeurs uniques de la colonne « E »
Obtenir le nombre de valeurs uniques dans une colonne
Utilisation de set() pour éliminer les valeurs en double d'une colonne
Utilisation des méthodes pandas.concat() et Unique()
Utilisation de Series.drop_duplicates()

Obtenez les valeurs uniques de la colonne « B »

Dans cet exemple, nous récupérons et imprimons les valeurs uniques de la colonne « B » en utilisant le unique()> méthode. Les valeurs uniques résultantes sont['B1', 'B2', 'B3', 'B4']>.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'B' column> df.B.unique()>

Sortir

array(['B1', 'B2', 'B3', 'B4'], dtype=object)>

Obtenez les valeurs uniques des pandas dans la colonne « E »

Dans cet exemple, nous créons un DataFrame pandas à partir d'un dictionnaire, puis récupérons les valeurs uniques de la colonne « E » à l'aide duunique()>méthode. Les valeurs uniques résultantes sont['E1']>.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'E' column> df.E.unique()>

Sortir

array(['E1'], dtype=object)>

Obtenir le nombre de valeurs uniques dans une colonne

Dans cet exemple, nous créons un Pandas DataFrame à partir d'un dictionnaire, puis calculons et imprimons le nombre de valeurs uniques dans la colonne « C », à l'exclusion des valeurs NaN. Le résultat est 3, indiquant qu'il y a trois valeurs uniques dans la colonne « C ».

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get number of unique values in column 'C'> df.C.nunique(dropna>=>True>)>

Sortir

inverser la chaîne java

3>

Éliminez les valeurs en double d'une colonne à l'aide de set()

Dans cet exemple, nous créons un DataFrame pandas à partir d'un dictionnaire, puis utilisons le set()>fonction pour extraire les valeurs uniques de la colonne « C », en éliminant les doublons. L'ensemble résultant,{'C1', 'C2', 'C3'}>, représente les valeurs uniques dans la colonne « C ».

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use set() to eliminate duplicate values in column 'C'> unique_values_set>=> set>(df[>'C'>])> # Print the unique values> print>(unique_values_set)>

Sortir

{'C1', 'C2', 'C3'}>

Utilisation des méthodes pandas.concat() et Unique()

Dans cet exemple, nous créons un DataFrame pandas à partir d'un dictionnaire, puis concaténéssons les valeurs uniques de toutes les colonnes en utilisant pd.concat()> . Le tableau NumPy résultant, une fois imprimé, affiche toutes les valeurs uniques des colonnes « A » à « E ».

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use pd.concat() to concatenate all columns and then apply unique()> unique_values_all_columns>=> pd.concat([df[col].unique()>for> col>in> df.columns])> # Print the unique values> print>(unique_values_all_columns)>

Sortir

['A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'C1' 'C2' 'C3' 'D1' 'D2' 'E1']>

Utilisation de Series.drop_duplicates()

Dans cet exemple, nous créons un DataFrame pandas à partir d'un dictionnaire et supprimons les doublons des colonnes « A » et « D » à l'aide du drop_duplicates()>méthode . Le DataFrame résultant, une fois imprimé, affiche les valeurs uniques dans les colonnes « A » et « D », avec des valeurs NaN où les doublons ont été supprimés de « D ».

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use drop_duplicates() to remove duplicates from columns 'A' and 'D'> df[>'A'>]>=> df[>'A'>].drop_duplicates()> df[>'D'>]>=> df[>'D'>].drop_duplicates()> # Print the DataFrame after removing duplicates from columns 'A' and 'D'> print>(df)>

Sortir

   A B C D E   0 A1 B1 C1 D1 E1 1 A2 B2 C2 D2 E1 2 A3 B3 C3 NaN E1 3 A4 B4 C3 NaN E1 4 A5 B4 C3 NaN E1>