logo

Qu’est-ce que Redshift ?

  • Redshift est un service d'entrepôt de données rapide et puissant, entièrement géré, à l'échelle du pétaoctet, dans le cloud.
  • Les clients peuvent utiliser Redshift pour seulement 0,25 $ par heure, sans engagement ni frais initiaux, et évoluer jusqu'à un pétaoctet ou plus pour 1 000 $ par téraoctet et par an.

OLAP

OLAP est un Système de traitement d'analyse en ligne utilisé par le Redshift .

Exemple de transaction OLAP :

Supposons que nous souhaitions calculer le bénéfice net pour la région EMEA et Pacifique pour le produit radio numérique. Cela nécessite d'extraire un grand nombre d'enregistrements. Voici les enregistrements requis pour calculer un bénéfice net :

  • Somme des radios vendues dans la région EMEA.
  • Somme des radios vendues dans le Pacifique.
  • Coût unitaire de la radio dans chaque région.
  • Prix ​​de vente de chaque radio
  • Prix ​​de vente - coût unitaire

Les requêtes complexes sont nécessaires pour récupérer les enregistrements indiqués ci-dessus. Les bases de données d'entreposage de données utilisent différents types d'architecture, à la fois du point de vue de la base de données et de la couche d'infrastructure.

Configuration du décalage rouge

Redshift

Redshift se compose de deux types de nœuds :

    Nœud unique Multi-nœuds

Nœud unique : Un seul nœud stocke jusqu'à 160 Go.

Multi-nœuds : Un multi-nœud est un nœud composé de plusieurs nœuds. Il est de deux types :

    Nœud leader
    Il gère les connexions clients et reçoit les requêtes. Un nœud leader reçoit les requêtes des applications clientes, analyse les requêtes et développe les plans d'exécution. Il coordonne l'exécution parallèle de ces plans avec le nœud de calcul et combine les résultats intermédiaires de tous les nœuds, puis renvoie le résultat final à l'application client.Nœud de calcul
    Un nœud de calcul exécute les plans d'exécution, puis les résultats intermédiaires sont envoyés au nœud leader pour agrégation avant d'être renvoyés à l'application client. Il peut contenir jusqu'à 128 nœuds de calcul.

Comprenons le concept de nœud leader et de nœuds de calcul à travers un exemple.

Redshift

L'entrepôt Redshift est un ensemble de ressources informatiques appelées nœuds, et ces nœuds sont organisés en un groupe appelé cluster. Chaque cluster s'exécute dans un moteur Redshift qui contient une ou plusieurs bases de données.

Lorsque vous lancez une instance Redshift, elle démarre avec un seul nœud de taille 160 Go. Lorsque vous souhaitez vous développer, vous pouvez ajouter des nœuds supplémentaires pour profiter du traitement parallèle. Vous disposez d'un nœud leader qui gère les multiples nœuds. Le nœud leader gère la connexion client ainsi que les nœuds de calcul. Il stocke les données dans les nœuds de calcul et exécute la requête.

Pourquoi Redshift est 10 fois plus rapide

Redshift est 10 fois plus rapide pour les raisons suivantes :

    Stockage de données en colonnes
    Au lieu de stocker les données sous forme d'une série de lignes, Amazon Redshift organise les données par colonne. Les systèmes basés sur des lignes sont idéaux pour le traitement des transactions, tandis que les systèmes basés sur des colonnes sont idéaux pour l'entreposage et l'analyse de données, où les requêtes impliquent souvent des agrégats effectués sur de grands ensembles de données. Étant donné que seules les colonnes impliquées dans les requêtes sont traitées et que les données en colonnes sont stockées séquentiellement sur un support de stockage, les systèmes basés sur des colonnes nécessitent moins d'E/S, améliorant ainsi les performances des requêtes.Compression avancée
    Les magasins de données en colonnes peuvent être bien plus compressés que les magasins de données basés sur les lignes, car les données similaires sont stockées séquentiellement sur le disque. Amazon Redshift utilise plusieurs techniques de compression et peut souvent obtenir une compression significative par rapport aux magasins de données relationnels traditionnels.
    Amazon Redshift ne nécessite pas d'index ni de vues matérialisées. Il nécessite donc moins d'espace que les systèmes de bases de données relationnelles traditionnels. Lors du chargement de données dans une table vide, Amazon Redshift échantillonne automatiquement vos données et sélectionne la technique de compression la plus appropriée.Traitement massivement parallèle
    Amazon Redshift distribue automatiquement les données et charge la requête sur différents nœuds. Un Amazon Redshift facilite l'ajout de nouveaux nœuds à votre entrepôt de données, ce qui nous permet d'obtenir des performances de requête plus rapides à mesure que votre entrepôt de données se développe.

Fonctionnalités de Redshift

Les fonctionnalités de Redshift sont indiquées ci-dessous :

types d'arbres binaires
Redshift
    Facile à installer, déployer et gérer
      Approvisionnement automatisé
      Redshift est simple à configurer et à utiliser. Vous pouvez déployer un nouvel entrepôt de données en quelques clics dans la console AWS, et Redshift provisionne automatiquement l'infrastructure pour vous. Dans AWS, toutes les tâches administratives sont automatisées, comme les sauvegardes et la réplication, vous devez vous concentrer sur vos données et non sur l'administration.Sauvegardes automatisées
      Redshift sauvegarde automatiquement vos données sur S3. Vous pouvez également répliquer les instantanés dans S3 dans une autre région pour toute reprise après sinistre.
    Rentable
      Pas de frais initiaux, payez au fur et à mesure
      Amazon Redshift est le service d'entrepôt de données le plus rentable, car vous ne devez payer que pour ce que vous utilisez.
      Ses coûts commencent à 0,25 $ par heure, sans engagement ni frais initiaux, et peuvent atteindre 250 $ par téraoctet et par an.
      Amazon Redshift est le seul service d'entrepôt de données qui propose une tarification à la demande sans frais initiaux, et propose également une tarification d'instance réservée qui permet d'économiser jusqu'à 75 % en offrant une durée de 1 à 3 ans.Choisissez votre type de nœud.
      Vous pouvez choisir l'un des deux nœuds pour optimiser le Redshift.
        Nœud de calcul dense
        Un nœud de calcul dense peut créer des entrepôts de données hautes performances en utilisant des processeurs rapides, une grande quantité de RAM et des disques SSD.Nœud de stockage dense
        Si vous souhaitez réduire les coûts, vous pouvez utiliser le nœud de stockage Dense. Il crée un entrepôt de données rentable en utilisant un disque dur plus grand.
    Évoluez rapidement pour répondre à vos besoins.
      Entreposage de données à l'échelle du pétaoctet
      Amazon Redshift augmente ou réduit automatiquement les nœuds en fonction des besoins. Avec seulement quelques clics dans la console AWS ou un seul appel d'API, vous pouvez facilement modifier le nombre de nœuds dans un entrepôt de données.Analyse des lacs de données à l'échelle de l'exaoctet
      Il s'agit d'une fonctionnalité de Redshift qui vous permet d'exécuter des requêtes sur des exaoctets de données dans Amazon S3. Amazon S3 est un système de données sécurisé et économique permettant de stocker un nombre illimité de données dans un format ouvert.Une concurrence illimitée
      C'est une fonctionnalité de Redshift qui signifie que plusieurs requêtes peuvent accéder aux mêmes données dans Amazon S3. Il vous permet d'exécuter des requêtes sur plusieurs nœuds, quelle que soit la complexité d'une requête ou la quantité de données.
    Interrogez votre lac de données
    Amazon Redshift est le seul entrepôt de données utilisé pour interroger le lac de données Amazon S3 sans charger de données. Cela offre de la flexibilité en stockant les données fréquemment consultées dans Redshift et les données non structurées ou rarement consultées dans Amazon S3.Sécurisé
    Avec quelques réglages de paramètres, vous pouvez configurer Redshift pour qu'il utilise SSL pour sécuriser vos données. Vous pouvez également activer le cryptage, toutes les données écrites sur le disque seront cryptées.Des performances plus rapides
    Amazon Redshift fournit un stockage de données en colonnes, une compression et un traitement parallèle pour réduire la quantité d'E/S nécessaire à l'exécution des requêtes. Cela améliore les performances des requêtes.