logo

Qu'est-ce que la RUCHE

Hive est un système d'entrepôt de données utilisé pour analyser des données structurées. Il est construit sur Hadoop. Il a été développé par Facebook.

Hive fournit des fonctionnalités de lecture, d'écriture et de gestion de grands ensembles de données résidant dans un stockage distribué. Il exécute des requêtes de type SQL appelées HQL (langage de requête Hive) qui sont converties en interne en tâches MapReduce.

Grâce à Hive, nous pouvons ignorer l'exigence de l'approche traditionnelle consistant à écrire des programmes MapReduce complexes. Hive prend en charge le langage de définition de données (DDL), le langage de manipulation de données (DML) et les fonctions définies par l'utilisateur (UDF).

Caractéristiques de la ruche

Voici les fonctionnalités suivantes de Hive :

  • Hive est rapide et évolutif.
  • Il fournit des requêtes de type SQL (c'est-à-dire HQL) qui sont implicitement transformées en tâches MapReduce ou Spark.
  • Il est capable d'analyser de grands ensembles de données stockés dans HDFS.
  • Il permet différents types de stockage tels que le texte brut, RCFile et HBase.
  • Il utilise l'indexation pour accélérer les requêtes.
  • Il peut fonctionner sur des données compressées stockées dans l'écosystème Hadoop.
  • Il prend en charge les fonctions définies par l'utilisateur (UDF) dans lesquelles l'utilisateur peut fournir ses fonctionnalités.

Limites de la ruche

  • Hive n'est pas capable de gérer des données en temps réel.
  • Il n'est pas conçu pour le traitement des transactions en ligne.
  • Les requêtes Hive contiennent une latence élevée.

Différences entre la ruche et le cochon

Ruche Cochon
Hive est couramment utilisé par les analystes de données. Pig est couramment utilisé par les programmeurs.
Il suit des requêtes de type SQL. Il suit le langage de flux de données.
Il peut gérer des données structurées. Il peut gérer des données semi-structurées.
Il fonctionne côté serveur du cluster HDFS. Il fonctionne côté client du cluster HDFS.
Hive est plus lent que Pig. Pig est comparativement plus rapide que Hive.