logo

Analyse et visualisation de données avec Python

Python est largement utilisé comme langage d'analyse de données en raison de ses bibliothèques robustes et de ses outils de gestion des données. Parmi ces bibliothèques se trouve Pandas, qui facilite la manipulation et l'analyse de l'exploration des données. nous utiliserons  Pandas  pour analyser un ensemble de données appelé  Données-pays.csv  de Kaggle. Tout en travaillant avec ces données, nous introduisons également quelques concepts importants dans Pandas.

1.Installation

Le moyen le plus simple d'installer des pandas est d'utiliser pip :

Python
pip install pandas 


ou Téléchargez-le depuis  ici .



2. Création d'un DataFrame dans Pandas

UN  Cadre de données  est une structure de données de type table dans Pandas qui contient des données stockées dans des lignes et des colonnes. Un DataFrame peut être créé en passant plusieurs objets Python Series dans le DataFrame classe ( pd.DataFrame() ) en utilisant le  pd.Series  méthode. Dans cet exemple, deux objets Series sont utilisés : s1 comme première rangée et s2 comme deuxième rangée.

Exemple 1 : Création d'un DataFrame à partir d'une série :

Python
import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe) 

Sortir:

Analyse et visualisation de données avec Python' title=

Exemple 2 : DataFrame à partir d'une liste avec des noms d'index et de colonnes personnalisés :

Python
dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1) 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title=

Exemple 3 : DataFrame à partir d'un dictionnaire :

Python
dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2) 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title=

3. Importation de données avec Pandas

La première étape consiste à lire les données. Dans notre cas, les données sont stockées sous forme de fichier CSV (Comma-Separated Values) où chaque ligne est séparée par une nouvelle ligne et chaque colonne par une virgule. Afin de pouvoir travailler avec les données en Python, il est nécessaire de lire le csv  déposer  dans un Pandas DataFrame.

Python
import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape 

Sortir:

tête' loading='lazy' title=
(167 10)

4. Indexation des DataFrames avec Pandas

Pandas offre de puissantes capacités d'indexation. Vous pouvez indexer des DataFrames en utilisant les deux basé sur la position et basé sur des étiquettes méthodes.

Indexation basée sur la position (à l'aide de iloc ) :

Python
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5] 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title= Analyse et visualisation de données avec Python' loading='lazy' title= Analyse et visualisation de données avec Python' loading='lazy' title=

Indexation basée sur les étiquettes (à l'aide de loc ) :

L'indexation peut être travaillée avec des étiquettes en utilisant le  pandas.DataFrame.loc  méthode qui permet d'indexer en utilisant des étiquettes au lieu de positions.

Exemples :

Python
# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::] 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title= Analyse et visualisation de données avec Python' loading='lazy' title=


Ce qui précède ne semble pas vraiment très différent de df.iloc[0:5:]. En effet, même si les étiquettes de ligne peuvent prendre n'importe quelle valeur, nos étiquettes de ligne correspondent exactement aux positions. Mais les étiquettes de colonnes peuvent rendre les choses beaucoup plus faciles lorsque vous travaillez avec des données.

Exemple:

Python
# Prints the first 5 rows of Time period # value  df.loc[:5'child_mort'] 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title=

5. Mathématiques DataFrame avec Pandas

Pandas facilite l'exécution d'opérations mathématiques sur les données stockées dans les dataframes. Les opérations pouvant être effectuées sur les pandas sont vectorisées, ce qui signifie qu'elles sont rapides et s'appliquent automatiquement à tous les éléments sans utiliser de boucles.

Exemple - Mathématiques par colonnes :

Python
# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title=

Fonctions statistiques chez les pandas :

qu'est-ce qui rend un PC rapide

Le calcul des trames de données peut être effectué à l'aide des fonctions statistiques des outils pandas. Nous pouvons utiliser des fonctions telles que :

  • df.sum() → somme de valeurs
  • df.mean() → moyen
  • df.max() / df.min() → valeurs max et min
  • df.describe() → résumé rapide des statistiques
Python
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum() 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title= Analyse et visualisation de données avec Python' loading='lazy' title=

6. Visualisation des données avec Pandas et Matplotlib

Pandas est très facile à utiliser avec  Matplotlib une bibliothèque puissante utilisée pour créer des tracés et des graphiques de base. Avec seulement quelques lignes de code, nous pouvons visualiser nos données et mieux les comprendre. Vous trouverez ci-dessous quelques exemples simples pour vous aider à démarrer le traçage à l'aide de Pandas et Matplotlib :

Python
# Import the library first import matplotlib.pyplot as plt 

Histogramme

Un histogramme montre la répartition des valeurs dans une colonne.

Python
df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show() 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title=

Boîte à moustaches

UN  boîte à moustaches  est utile pour détecter les valeurs aberrantes et comprendre la répartition des données.

Python
df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show() 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title=

Nuage de points

UN  nuage de points  montre la relation entre deux variables.

Python
x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show() 

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title=

Article connexe :

  • Présentation des pandas
  • Traçage de graphiques en Python
  • Travailler avec des fichiers csv en Python
  • Cadre de données Pandas
  • Introduction à Matplotlib
  • Histogramme - Graphique et exemples de types de définition
  • Boîte à moustaches
  • Nuage de points


Créer un quiz