Python est largement utilisé comme langage d'analyse de données en raison de ses bibliothèques robustes et de ses outils de gestion des données. Parmi ces bibliothèques se trouve Pandas, qui facilite la manipulation et l'analyse de l'exploration des données. nous utiliserons Pandas pour analyser un ensemble de données appelé Données-pays.csv de Kaggle. Tout en travaillant avec ces données, nous introduisons également quelques concepts importants dans Pandas.
1.Installation
Le moyen le plus simple d'installer des pandas est d'utiliser pip :
Pythonpip install pandas
ou Téléchargez-le depuis ici .
2. Création d'un DataFrame dans Pandas
UN Cadre de données est une structure de données de type table dans Pandas qui contient des données stockées dans des lignes et des colonnes. Un DataFrame peut être créé en passant plusieurs objets Python Series dans le DataFrame classe ( pd.DataFrame() ) en utilisant le pd.Series méthode. Dans cet exemple, deux objets Series sont utilisés : s1 comme première rangée et s2 comme deuxième rangée.
Exemple 1 : Création d'un DataFrame à partir d'une série :
Pythonimport pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)
Sortir:
Exemple 2 : DataFrame à partir d'une liste avec des noms d'index et de colonnes personnalisés :
Pythondataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)
Sortir:
Exemple 3 : DataFrame à partir d'un dictionnaire :
Pythondataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)
Sortir:
3. Importation de données avec Pandas
La première étape consiste à lire les données. Dans notre cas, les données sont stockées sous forme de fichier CSV (Comma-Separated Values) où chaque ligne est séparée par une nouvelle ligne et chaque colonne par une virgule. Afin de pouvoir travailler avec les données en Python, il est nécessaire de lire le csv déposer dans un Pandas DataFrame.
Pythonimport pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape
Sortir:
(167 10)4. Indexation des DataFrames avec Pandas
Pandas offre de puissantes capacités d'indexation. Vous pouvez indexer des DataFrames en utilisant les deux basé sur la position et basé sur des étiquettes méthodes.
Indexation basée sur la position (à l'aide de iloc ) :
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]
Sortir:
Indexation basée sur les étiquettes (à l'aide de loc ) :
L'indexation peut être travaillée avec des étiquettes en utilisant le pandas.DataFrame.loc méthode qui permet d'indexer en utilisant des étiquettes au lieu de positions.
Exemples :
Python# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]
Sortir:
Ce qui précède ne semble pas vraiment très différent de df.iloc[0:5:]. En effet, même si les étiquettes de ligne peuvent prendre n'importe quelle valeur, nos étiquettes de ligne correspondent exactement aux positions. Mais les étiquettes de colonnes peuvent rendre les choses beaucoup plus faciles lorsque vous travaillez avec des données.
Exemple:
Python# Prints the first 5 rows of Time period # value df.loc[:5'child_mort']
Sortir:
5. Mathématiques DataFrame avec Pandas
Pandas facilite l'exécution d'opérations mathématiques sur les données stockées dans les dataframes. Les opérations pouvant être effectuées sur les pandas sont vectorisées, ce qui signifie qu'elles sont rapides et s'appliquent automatiquement à tous les éléments sans utiliser de boucles.
Exemple - Mathématiques par colonnes :
Python# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df
Sortir:
Fonctions statistiques chez les pandas :
qu'est-ce qui rend un PC rapide
Le calcul des trames de données peut être effectué à l'aide des fonctions statistiques des outils pandas. Nous pouvons utiliser des fonctions telles que :
df.sum()→ somme de valeursdf.mean()→ moyendf.max()/df.min()→ valeurs max et mindf.describe()→ résumé rapide des statistiques
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()
Sortir:
6. Visualisation des données avec Pandas et Matplotlib
Pandas est très facile à utiliser avec Matplotlib une bibliothèque puissante utilisée pour créer des tracés et des graphiques de base. Avec seulement quelques lignes de code, nous pouvons visualiser nos données et mieux les comprendre. Vous trouverez ci-dessous quelques exemples simples pour vous aider à démarrer le traçage à l'aide de Pandas et Matplotlib :
Python# Import the library first import matplotlib.pyplot as plt
Histogramme
Un histogramme montre la répartition des valeurs dans une colonne.
Pythondf['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()
Sortir:
Boîte à moustaches
UN boîte à moustaches est utile pour détecter les valeurs aberrantes et comprendre la répartition des données.
Pythondf = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()
Sortir:
Nuage de points
UN nuage de points montre la relation entre deux variables.
Pythonx = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()
Sortir:
Article connexe :
- Présentation des pandas
- Traçage de graphiques en Python
- Travailler avec des fichiers csv en Python
- Cadre de données Pandas
- Introduction à Matplotlib
- Histogramme - Graphique et exemples de types de définition
- Boîte à moustaches
- Nuage de points