Dans cet article, nous discuterons de Pandas DataFrame.set_index() en Python. Python se distingue comme un excellent langage pour l’analyse des données, en grande partie grâce à son écosystème exceptionnel de packages centrés sur les données. Parmi ces forfaits, Pandas joue un rôle important dans la simplification de l’importation et de l’analyse des données.
Syntaxe Pandas DataFrame.set_index()
Syntaxe: DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
Paramètres:
- clés: Nom de colonne ou liste de noms de colonnes.
- baisse: Une valeur booléenne qui, si True, supprime la colonne utilisée pour l'index.
- ajouter: Si True, ajoute la colonne spécifiée à la colonne d'index existante.
- en place: Si True, les modifications sont apportées dans le DataFrame lui-même.
- verify_integrity : Si True, vérifie la nouvelle colonne d’index pour les doublons.
Qu'est-ce que Pandas DataFrame.set_index() ?
La trame de données Pandas. set_index() La méthode est utilisée pour attribuer une liste, une série ou une autre trame de données comme index d’une trame de données donnée. Il est particulièrement utile lors de la combinaison de plusieurs trames de données, permettant une modification facile de l'index. Bien qu'une colonne d'index puisse être spécifiée lors de la création du bloc de données, set_index() fournit un moyen flexible de modifier l'index ultérieurement. Essentiellement, il vous permet de définir une liste, une série ou une trame de données comme index d'une trame de données. Mais parfois, une trame de données est constituée de deux trames de données ou plus et l'index ultérieur peut donc être modifié à l'aide de cette méthode.
Pour télécharger le fichier CSV utilisé, cliquez sur Ici.
caractéristiques d'une série panda
Exemples Pandas DataFrame.set_index()
Vous trouverez ci-dessous des illustrations appropriées des exemples pour Pandas DataFrame.set_index().
- Pandas définit l'index sur la colonne
- Colonne à index multiples
- Définir un seul Colonne flottante comme indice
- Paramètre trois colonnes comme MultiIndex
- Pandas définit l'index d'une colonne spécifique
Pandas définit l'index sur la colonne
Dans cet exemple, nous modifions la colonne Index, la colonne Prénom est devenue la colonne d'index du Data Frame.
Python3
# importing pandas package> import> pandas as pd> # making data frame from csv file> data>=> pd.read_csv(>'employees.csv'>)> # setting first name as index column> data.set_index(>'First Name'>, inplace>=> True>)> # display> data.head()> |
>
>
Sortir : Avant l'opération –

Après l'opération –

Comme le montrent les images de sortie, auparavant la colonne d'index était une série de nombres, mais elle a ensuite été remplacée par Prénom.
Pandas définit l'index sur plusieurs colonnes d'index
Dans cet exemple, deux colonnes seront créées comme colonne d'index. Le paramètre Drop est utilisé pour supprimer la colonne et le paramètre append est utilisé pour ajouter les colonnes transmises à la colonne d'index déjà existante.
Python3
remplacer la chaîne en java
# importing pandas package> import> pandas as pd> # making data frame from csv file> data>=> pd.read_csv(>'employees.csv'>)> # setting first name as index column> data.set_index([>'First Name'>,>'Gender'>], inplace>=> True>,> >append>=> True>, drop>=> False>)> # display> data.head()> |
>
>
commande supérieure Unix
Sortir:

Comme le montre l'image de sortie, les données comportent 3 colonnes d'index.
Pandas Dataframe Index Définition d'un seul Colonne flottante comme indice
Dans cet exemple, l'extrait de code ci-dessous utilise la bibliothèque Pandas pour créer un DataFrame nommé « df » à partir d'une liste imbriquée de données d'étudiant. Il définit la colonne « Agg_Marks » comme index et affiche le DataFrame résultant avec les colonnes « Nom », « Âge », « Ville » et « Pays ».
Python3
# importing pandas library> import> pandas as pd> # creating and initializing a nested list> students>=> [[>'jack'>,>34>,>'Sydeny'>,>'Australia'>,>85.96>],> >[>'Riti'>,>30>,>'Delhi'>,>'India'>,>95.20>],> >[>'Vansh'>,>31>,>'Delhi'>,>'India'>,>85.25>],> >[>'Nanyu'>,>32>,>'Tokyo'>,>'Japan'>,>74.21>],> >[>'Maychan'>,>16>,>'New York'>,>'US'>,>99.63>],> >[>'Mike'>,>17>,>'las vegas'>,>'US'>,>47.28>]]> # Create a DataFrame object> df>=> pd.DataFrame(students,> >columns>=>[>'Name'>,>'Age'>,>'City'>,>'Country'>,>'Agg_Marks'>],> >index>=>[>'a'>,>'b'>,>'c'>,>'d'>,>'e'>,>'f'>])> # here we set Float column 'Agg_Marks' as index of data frame> # using dataframe.set_index() function> df>=> df.set_index(>'Agg_Marks'>)> # Displaying the Data frame> df> |
>
>
Sortir :
tri par fusion
Name Age City Country Agg_Marks 85.96 jack 34 Sydeny Australia 95.20 Riti 30 Delhi India 85.25 Vansh 31 Delhi India 74.21 Nanyu 32 Tokyo Japan 99.63 Maychan 16 New York US 47.28 Mike 17 las vegas US>
Dans l'exemple ci-dessus, nous définissons la colonne ' Agg_Marks ' comme index de la trame de données.
Paramètre d'index de trame de données Pandas trois colonnes comme MultiIndex
Dans cet exemple, le code ci-dessous utilise Pandas pour créer un DataFrame « df » à partir des données des étudiants, avec les colonnes « Nom », « Âge », « Ville », « Pays », « Agg_Marks » et « ID ». Il utilise la fonction `set_index()` pour établir un index à plusieurs niveaux en utilisant « Nom », « Ville » et « ID », puis affiche le DataFrame résultant.
Python3
# importing pandas library> import> pandas as pd> # creating and initializing a nested list> students>=> [[>'jack'>,>34>,>'Sydeny'>,>'Australia'>,>85.96>,>400>],> >[>'Riti'>,>30>,>'Delhi'>,>'India'>,>95.20>,>750>],> >[>'Vansh'>,>31>,>'Delhi'>,>'India'>,>85.25>,>101>],> >[>'Nanyu'>,>32>,>'Tokyo'>,>'Japan'>,>74.21>,>900>],> >[>'Maychan'>,>16>,>'New York'>,>'US'>,>99.63>,>420>],> >[>'Mike'>,>17>,>'las vegas'>,>'US'>,>47.28>,>555>]]> # Create a DataFrame object> df>=> pd.DataFrame(students,> >columns>=>[>'Name'>,>'Age'>,>'City'>,>'Country'>,>'Agg_Marks'>,>'ID'>],> >index>=>[>'a'>,>'b'>,>'c'>,>'d'>,>'e'>,>'f'>])> # Here we pass list of 3 columns i.e 'Name', 'City' and 'ID'> # to dataframe.set_index() function> # to set them as multiIndex of dataframe> df>=> df.set_index([>'Name'>,>'City'>,>'ID'>])> # Displaying the Data frame> df> |
>
>
Sortir :
Age Country Agg_Marks Name City ID jack Sydeny 400 34 Australia 85.96 Riti Delhi 750 30 India 95.20 Vansh Delhi 101 31 India 85.25 Nanyu Tokyo 900 32 Japan 74.21 Maychan New York 420 16 US 99.63 Mike las vegas 555 17 US 47.28>
Dans l'exemple ci-dessus, nous définissons les colonnes ' Nom ', ' Ville ', et ' IDENTIFIANT ‘ comme multiIndex de la trame de données.
Pandas définit l'index d'une colonne spécifique
Dans cet exemple, le code ci-dessous montre comment utiliser Pandas pour créer un DataFrame, définir une colonne spécifique (« Nom » dans ce cas) comme index à l'aide duset_index()>méthode, puis affiche les DataFrames d’origine et modifiés. Leinplace=True>Le paramètre garantit que les modifications sont appliquées directement au DataFrame sans qu’il soit nécessaire de les réaffecter.
Python3
import> pandas as pd> # Creating a sample DataFrame> data>=> {>'Name'>: [>'Geek1'>,>'Geek2'>,>'Geek3'>],> >'Age'>: [>25>,>30>,>35>],> >'City'>: [>'New York'>,>'San Francisco'>,>'Los Angeles'>]}> df>=> pd.DataFrame(data)> # Displaying the original DataFrame> print>(>'Original DataFrame:'>)> print>(df)> # Using set_index() to set 'Name' column as the index> df.set_index(>'Name'>, inplace>=>True>)> # Displaying the DataFrame after setting the index> print>(>'
DataFrame after set_index:'>)> print>(df)> |
>
dîner contre dîner
>
Sortir :
Original DataFrame: Name Age City 0 Geek1 25 New York 1 Geek2 30 San Francisco 2 Geek3 35 Los Angeles DataFrame after set_index: Age City Name Geek1 25 New York Geek2 30 San Francisco Geek3 35 Los Angeles>