logo

Algorithme a priori

L'algorithme Apriori fait référence à l'algorithme utilisé pour calculer les règles d'association entre les objets. Cela signifie comment deux ou plusieurs objets sont liés les uns aux autres. En d’autres termes, on peut dire que l’algorithme a priori est une règle d’association qui analyse que les personnes qui ont acheté le produit A ont également acheté le produit B.

L'objectif principal de l'algorithme a priori est de créer la règle d'association entre différents objets. La règle d'association décrit la manière dont deux ou plusieurs objets sont liés les uns aux autres. L’algorithme Apriori est également appelé exploration de modèles fréquents. Généralement, vous utilisez l'algorithme Apriori sur une base de données composée d'un grand nombre de transactions. Comprenons l'algorithme a priori à l'aide d'un exemple ; Supposons que vous alliez au Big Bazar et achetiez différents produits. Cela aide les clients à acheter facilement leurs produits et augmente les performances commerciales du Big Bazar. Dans ce didacticiel, nous discuterons de l'algorithme a priori avec des exemples.

Introduction

Prenons un exemple pour mieux comprendre le concept. Vous devez avoir remarqué que le vendeur de la pizzeria prépare ensemble une pizza, une boisson gazeuse et un gressin. Il offre également une remise à ses clients qui achètent ces combos. Vous êtes-vous déjà demandé pourquoi il fait cela ? Il pense que les clients qui achètent des pizzas achètent également des boissons gazeuses et des gressins. Cependant, en réalisant des combos, il facilite la tâche des clients. Dans le même temps, il augmente également ses performances commerciales.

monliviricket

De même, vous allez au Big Bazar et vous trouverez des biscuits, des chips et du chocolat regroupés. Cela montre que le commerçant permet aux clients d'acheter ces produits confortablement au même endroit.

Les deux exemples ci-dessus sont les meilleurs exemples de règles d'association dans

  • Soutien
  • Confiance
  • Ascenseur
  • Prenons un exemple pour comprendre ce concept.

    Nous en avons déjà discuté ci-dessus ; vous avez besoin d'une énorme base de données contenant un grand nombre de transactions. Supposons que vous ayez 4 000 transactions clients dans un Big Bazar. Vous devez calculer le support, la confiance et l'ascenseur pour deux produits, et vous pouvez dire Biscuits et Chocolat. En effet, les clients achètent fréquemment ces deux articles ensemble.

    Sur 4000 transactions, 400 contiennent des Biscuits, tandis que 600 contiennent du Chocolat, et ces 600 transactions incluent 200 qui incluent des Biscuits et des chocolats. En utilisant ces données, nous découvrirons le soutien, la confiance et l’ascenseur.

    Soutien

    Le support fait référence à la popularité par défaut de tout produit. Vous trouvez le support comme le quotient de la division du nombre de transactions composant ce produit par le nombre total de transactions. Par conséquent, nous obtenons

    Support (Biscuits) = (Transactions relatives aux biscuits) / (Total des transactions)

    = 400/4000 = 10 pour cent.

    Confiance

    La confiance fait référence à la possibilité que les clients aient acheté à la fois des biscuits et des chocolats. Vous devez donc diviser le nombre de transactions comprenant à la fois des biscuits et des chocolats par le nombre total de transactions pour obtenir la confiance.

    Ainsi,

    Confiance = (Transactions relatives aux biscuits et au chocolat) / (Total des transactions impliquant des biscuits)

    = 200/400

    = 50 pour cent.

    Cela signifie que 50 pour cent des clients qui ont acheté des biscuits ont également acheté des chocolats.

    Ascenseur

    Considérez l'exemple ci-dessus ; L'ascenseur fait référence à l'augmentation du ratio de vente de chocolats lorsque vous vendez des biscuits. Les équations mathématiques de la portance sont données ci-dessous.

    Lift = (Confiance (Biscuits - chocolats)/ (Soutien (Biscuits)

    = 50/10 = 5

    Cela signifie que la probabilité que les gens achètent à la fois des biscuits et des chocolats est cinq fois plus élevée que celle d’acheter les biscuits seuls. Si la valeur d’ascenseur est inférieure à un, cela signifie qu’il est peu probable que les gens achètent les deux articles ensemble. Plus la valeur est grande, meilleure est la combinaison.

    Comment fonctionne l’algorithme Apriori dans le Data Mining ?

    Nous comprendrons cet algorithme à l'aide d'un exemple

    Considérons un scénario Big Bazar dans lequel l'ensemble de produits est P = {Riz, Pulse, Oil, Milk, Apple}. La base de données comprend six transactions où 1 représente la présence du produit et 0 représente l'absence du produit.

    identifiant de transaction Riz Impulsion Lait huileux Pomme
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    t6 1 1 1 1 1

    L'algorithme Apriori fait les hypothèses données

    combien y a-t-il de villes aux États-Unis d'Amérique
    • Tous les sous-ensembles d’un ensemble d’éléments fréquents doivent être fréquents.
    • Les sous-ensembles d’un ensemble d’éléments peu fréquents doivent être peu fréquents.
    • Fixez un niveau de support seuil. Dans notre cas, nous l'avons fixé à 50 pour cent.

    Étape 1

    Faites un tableau de fréquence de tous les produits qui apparaissent dans toutes les transactions. Maintenant, raccourcissez le tableau des fréquences pour ajouter uniquement les produits avec un niveau de support seuil supérieur à 50 %. On retrouve le tableau de fréquence donné.

    Produit Fréquence (Nombre de transactions)
    Riz (R) 4
    Impulsion(P) 5
    Huile (O) 4
    Lait(M) 4

    Le tableau ci-dessus indique les produits fréquemment achetés par les clients.

    Étape 2

    Créez des paires de produits telles que RP, RO, RM, PO, PM, OM. Vous obtiendrez le tableau de fréquence donné.

    Ensemble d'éléments Fréquence (Nombre de transactions)
    PR 4
    RO 3
    RM 2
    APRÈS 4
    MP 3
    À PROPOS 2

    Étape 3

    Mettre en œuvre le même seuil de support de 50 pour cent et considérer les produits qui représentent plus de 50 pour cent. Dans notre cas, c'est plus de 3

    Ainsi, nous obtenons RP, RO, PO et PM

    Étape 4

    Recherchez maintenant un ensemble de trois produits que les clients achètent ensemble. Nous obtenons la combinaison donnée.

    1. RP et RO donnent RPO
    2. PO et PM donnent POM

    Étape 5

    Calculez la fréquence des deux ensembles d’éléments et vous obtiendrez le tableau de fréquence donné.

    liste des méthodes java
    Ensemble d'éléments Fréquence (Nombre de transactions)
    RPO 4
    POM 3

    Si vous implémentez l'hypothèse de seuil, vous pouvez comprendre que l'ensemble de trois produits des clients est un RPO.

    Nous avons considéré un exemple simple pour discuter de l'algorithme a priori dans l'exploration de données. En réalité, il existe des milliers de combinaisons de ce type.

    Comment améliorer l’efficacité de l’algorithme Apriori ?

    Il existe différentes méthodes utilisées pour l'efficacité de l'algorithme Apriori

    Comptage d'ensembles d'éléments basé sur le hachage

    Dans le comptage d'ensembles d'éléments basé sur le hachage, vous devez exclure le k-itemset dont le nombre de compartiments de hachage équivalent est inférieur au seuil correspondant à un ensemble d'éléments peu fréquent.

    Réduction des transactions

    Dans la réduction des transactions, une transaction n'impliquant aucun ensemble d'éléments X fréquents n'a plus de valeur lors des analyses ultérieures.

    Algorithme Apriori dans l'exploration de données

    Nous avons déjà discuté d'un exemple d'algorithme a priori lié à la génération fréquente d'ensembles d'éléments. L’algorithme Apriori a de nombreuses applications dans l’exploration de données.

    Les principales exigences pour trouver les règles d'association dans l'exploration de données sont indiquées ci-dessous.

    Utiliser la force brute

    Analysez toutes les règles et trouvez les niveaux de support et de confiance pour chaque règle individuelle. Ensuite, éliminez les valeurs inférieures au seuil de support et aux niveaux de confiance.

    xor en java

    Les approches en deux étapes

    L'approche en deux étapes est une meilleure option pour trouver les règles d'association que la méthode Brute Force.

    Étape 1

    Dans cet article, nous avons déjà expliqué comment créer le tableau de fréquence et calculer les ensembles d'éléments ayant une valeur de support supérieure à celle du support de seuil.

    Étape 2

    Pour créer des règles d'association, vous devez utiliser une partition binaire des ensembles d'éléments fréquents. Vous devez choisir ceux qui ont les niveaux de confiance les plus élevés.

    Dans l'exemple ci-dessus, vous pouvez voir que la combinaison RPO était l'ensemble d'éléments fréquent. Maintenant, nous découvrons toutes les règles en utilisant RPO.

    RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

    Vous pouvez voir qu’il existe six combinaisons différentes. Donc, si vous avez n éléments, il y aura 2n- 2 règlements d'association candidats.

    Avantages de l'algorithme Apriori

    • Il est utilisé pour calculer de grands ensembles d’éléments.
    • Simple à comprendre et à appliquer.

    Inconvénients des algorithmes Apriori

    • L’algorithme a priori est une méthode coûteuse pour trouver du support puisque le calcul doit passer par l’ensemble de la base de données.
    • Parfois, vous avez besoin d’un grand nombre de règles candidates, ce qui devient donc plus coûteux en termes de calcul.