La fonction Group_by() appartient au package dplyr du langage de programmation R, qui regroupe les trames de données. La fonction Group_by() seule ne donnera aucune sortie. Il doit être suivi de la fonction summarise() avec une action appropriée à effectuer. Cela fonctionne de la même manière que GROUP BY dans SQL et le tableau croisé dynamique dans Excel.
Syntaxe:
group_by(col,…)
Syntaxe:
group_by(col,..) %>% résumé(action)
L'ensemble de données utilisé :
Échantillon_Superstore
Group_by() sur un seule colonne
C'est la manière la plus simple de regrouper une colonne, il suffit de passer le nom de la colonne à regrouper dans la fonction group_by() et l'action à effectuer sur cette colonne regroupée dans la fonction summarise().
Exemple: Regroupement d'une seule colonne par group_by()
qu'est-ce que l'objet Java
R.
library> (dplyr)> df => read.csv> (> 'Sample_Superstore.csv'> )> df_grp_region = df %>%> group_by> (Region) %>%> > summarise> (total_sales => sum> (Sales),> > total_profits => sum> (Profit),> > .groups => 'drop'> )> View> (df_grp_region)> |
>
>
Sortir:
Group_by() sur plusieurs colonnes
La fonction Group_by() peut également être exécutée sur deux colonnes ou plus, les noms de colonnes doivent être dans le bon ordre. Le regroupement se fera selon le nom de la première colonne dans la fonction group_by puis le regroupement se fera selon la deuxième colonne.
Exemple: Regroupement de plusieurs colonnes
R.
library> (dplyr)> df => read.csv> (> 'Sample_Superstore.csv'> )> df_grp_reg_cat = df %>%> group_by> (Region, Category) %>%> > summarise> (total_Sales => sum> (Sales),> > total_Profit => sum> (Profit),> > .groups => 'drop'> )> View> (df_grp_reg_cat)> |
>
>
Sortir:
Nous pouvons également calculer la moyenne, le nombre, le minimum ou le maximum en remplaçant la somme dans la fonction de synthèse ou d'agrégation. Par exemple, nous trouverons les ventes et les bénéfices moyens pour le même exemple group_by ci-dessus.
Exemple:
R.
tri par fusion java
library> (dplyr)> df => read.csv> (> 'Sample_Superstore.csv'> )> df_grp_reg_cat = df %>%> group_by> (Region, Category) %>%> > summarise> (mean_Sales => mean> (Sales),> > mean_Profit => mean> (Profit),> > .groups => 'drop'> )> View> (df_grp_reg_cat)> |
>
>
Sortir: