ANALYSE ET VISUALISATION DE DONNÉES AVEC PYTHON

Python est largement utilisé comme langage d'analyse de données en raison de ses bibliothèques robustes et de ses outils de gestion des données. Parmi ces bibliothèques se trouve Pandas, qui facilite la manipulation et l'analyse de l'exploration des données. nous utiliserons Pandas pour analyser un ensemble de données appelé Données-pays.csv de Kaggle. Tout en travaillant avec ces données, nous introduisons également quelques concepts importants dans Pandas.

1.Installation

Le moyen le plus simple d'installer des pandas est d'utiliser pip :

Python pip install pandas

ou Téléchargez-le depuis ici .

2. Création d'un DataFrame dans Pandas

UN Cadre de données est une structure de données de type table dans Pandas qui contient des données stockées dans des lignes et des colonnes. Un DataFrame peut être créé en passant plusieurs objets Python Series dans le DataFrame classe ( pd.DataFrame() ) en utilisant le pd.Series méthode. Dans cet exemple, deux objets Series sont utilisés : s1 comme première rangée et s2 comme deuxième rangée.

Exemple 1 : Création d'un DataFrame à partir d'une série :

Python

import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)

Sortir:

Analyse et visualisation de données avec Python' title=

Exemple 2 : DataFrame à partir d'une liste avec des noms d'index et de colonnes personnalisés :

Python dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)

Sortir:

Analyse et visualisation de données avec Python' loading='lazy' title=

Exemple 3 : DataFrame à partir d'un dictionnaire :

Python dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)

Sortir:

3. Importation de données avec Pandas

La première étape consiste à lire les données. Dans notre cas, les données sont stockées sous forme de fichier CSV (Comma-Separated Values) où chaque ligne est séparée par une nouvelle ligne et chaque colonne par une virgule. Afin de pouvoir travailler avec les données en Python, il est nécessaire de lire le csv déposer dans un Pandas DataFrame.

Python

import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape

Sortir:

(167 10)

4. Indexation des DataFrames avec Pandas

Pandas offre de puissantes capacités d'indexation. Vous pouvez indexer des DataFrames en utilisant les deux basé sur la position et basé sur des étiquettes méthodes.

Indexation basée sur la position (à l'aide de iloc ) :

Python

# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]

Sortir:

Indexation basée sur les étiquettes (à l'aide de loc ) :

L'indexation peut être travaillée avec des étiquettes en utilisant le pandas.DataFrame.loc méthode qui permet d'indexer en utilisant des étiquettes au lieu de positions.

Exemples :

Python

# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]

Sortir:

Ce qui précède ne semble pas vraiment très différent de df.iloc[0:5:]. En effet, même si les étiquettes de ligne peuvent prendre n'importe quelle valeur, nos étiquettes de ligne correspondent exactement aux positions. Mais les étiquettes de colonnes peuvent rendre les choses beaucoup plus faciles lorsque vous travaillez avec des données.

Exemple:

Python # Prints the first 5 rows of Time period # value df.loc[:5'child_mort']

Sortir:

5. Mathématiques DataFrame avec Pandas

Pandas facilite l'exécution d'opérations mathématiques sur les données stockées dans les dataframes. Les opérations pouvant être effectuées sur les pandas sont vectorisées, ce qui signifie qu'elles sont rapides et s'appliquent automatiquement à tous les éléments sans utiliser de boucles.

Exemple - Mathématiques par colonnes :

Python

# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df

Sortir:

Fonctions statistiques chez les pandas :

qu'est-ce qui rend un PC rapide

Le calcul des trames de données peut être effectué à l'aide des fonctions statistiques des outils pandas. Nous pouvons utiliser des fonctions telles que :

df.sum() → somme de valeurs
df.mean() → moyen
df.max() / df.min() → valeurs max et min
df.describe() → résumé rapide des statistiques

Python

# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()

Sortir:

6. Visualisation des données avec Pandas et Matplotlib

Pandas est très facile à utiliser avec Matplotlib une bibliothèque puissante utilisée pour créer des tracés et des graphiques de base. Avec seulement quelques lignes de code, nous pouvons visualiser nos données et mieux les comprendre. Vous trouverez ci-dessous quelques exemples simples pour vous aider à démarrer le traçage à l'aide de Pandas et Matplotlib :

Python # Import the library first import matplotlib.pyplot as plt

Histogramme

Un histogramme montre la répartition des valeurs dans une colonne.

Python

df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()

Sortir:

Boîte à moustaches

UN boîte à moustaches est utile pour détecter les valeurs aberrantes et comprendre la répartition des données.

Python

df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()

Sortir:

Nuage de points

UN nuage de points montre la relation entre deux variables.

Python

x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()

Sortir:

Article connexe :

Présentation des pandas
Traçage de graphiques en Python
Travailler avec des fichiers csv en Python
Cadre de données Pandas
Introduction à Matplotlib
Histogramme - Graphique et exemples de types de définition
Boîte à moustaches
Nuage de points

Créer un quiz

Analyse et visualisation de données avec Python

1.Installation

2. Création d'un DataFrame dans Pandas

3. Importation de données avec Pandas

4. Indexation des DataFrames avec Pandas

5. Mathématiques DataFrame avec Pandas

6. Visualisation des données avec Pandas et Matplotlib