ALGORITHME A PRIORI

L'algorithme Apriori fait référence à l'algorithme utilisé pour calculer les règles d'association entre les objets. Cela signifie comment deux ou plusieurs objets sont liés les uns aux autres. En d’autres termes, on peut dire que l’algorithme a priori est une règle d’association qui analyse que les personnes qui ont acheté le produit A ont également acheté le produit B.

L'objectif principal de l'algorithme a priori est de créer la règle d'association entre différents objets. La règle d'association décrit la manière dont deux ou plusieurs objets sont liés les uns aux autres. L’algorithme Apriori est également appelé exploration de modèles fréquents. Généralement, vous utilisez l'algorithme Apriori sur une base de données composée d'un grand nombre de transactions. Comprenons l'algorithme a priori à l'aide d'un exemple ; Supposons que vous alliez au Big Bazar et achetiez différents produits. Cela aide les clients à acheter facilement leurs produits et augmente les performances commerciales du Big Bazar. Dans ce didacticiel, nous discuterons de l'algorithme a priori avec des exemples.

Introduction

Prenons un exemple pour mieux comprendre le concept. Vous devez avoir remarqué que le vendeur de la pizzeria prépare ensemble une pizza, une boisson gazeuse et un gressin. Il offre également une remise à ses clients qui achètent ces combos. Vous êtes-vous déjà demandé pourquoi il fait cela ? Il pense que les clients qui achètent des pizzas achètent également des boissons gazeuses et des gressins. Cependant, en réalisant des combos, il facilite la tâche des clients. Dans le même temps, il augmente également ses performances commerciales.

monliviricket

De même, vous allez au Big Bazar et vous trouverez des biscuits, des chips et du chocolat regroupés. Cela montre que le commerçant permet aux clients d'acheter ces produits confortablement au même endroit.

Les deux exemples ci-dessus sont les meilleurs exemples de règles d'association dans

Soutien

Confiance

Ascenseur

Prenons un exemple pour comprendre ce concept.

Nous en avons déjà discuté ci-dessus ; vous avez besoin d'une énorme base de données contenant un grand nombre de transactions. Supposons que vous ayez 4 000 transactions clients dans un Big Bazar. Vous devez calculer le support, la confiance et l'ascenseur pour deux produits, et vous pouvez dire Biscuits et Chocolat. En effet, les clients achètent fréquemment ces deux articles ensemble.

Sur 4000 transactions, 400 contiennent des Biscuits, tandis que 600 contiennent du Chocolat, et ces 600 transactions incluent 200 qui incluent des Biscuits et des chocolats. En utilisant ces données, nous découvrirons le soutien, la confiance et l’ascenseur.

Soutien

Le support fait référence à la popularité par défaut de tout produit. Vous trouvez le support comme le quotient de la division du nombre de transactions composant ce produit par le nombre total de transactions. Par conséquent, nous obtenons

Support (Biscuits) = (Transactions relatives aux biscuits) / (Total des transactions)

= 400/4000 = 10 pour cent.

Confiance

La confiance fait référence à la possibilité que les clients aient acheté à la fois des biscuits et des chocolats. Vous devez donc diviser le nombre de transactions comprenant à la fois des biscuits et des chocolats par le nombre total de transactions pour obtenir la confiance.

Ainsi,

Confiance = (Transactions relatives aux biscuits et au chocolat) / (Total des transactions impliquant des biscuits)

= 200/400

= 50 pour cent.

Cela signifie que 50 pour cent des clients qui ont acheté des biscuits ont également acheté des chocolats.

Ascenseur

Considérez l'exemple ci-dessus ; L'ascenseur fait référence à l'augmentation du ratio de vente de chocolats lorsque vous vendez des biscuits. Les équations mathématiques de la portance sont données ci-dessous.

Lift = (Confiance (Biscuits - chocolats)/ (Soutien (Biscuits)

= 50/10 = 5

Cela signifie que la probabilité que les gens achètent à la fois des biscuits et des chocolats est cinq fois plus élevée que celle d’acheter les biscuits seuls. Si la valeur d’ascenseur est inférieure à un, cela signifie qu’il est peu probable que les gens achètent les deux articles ensemble. Plus la valeur est grande, meilleure est la combinaison.

Comment fonctionne l’algorithme Apriori dans le Data Mining ?

Nous comprendrons cet algorithme à l'aide d'un exemple

Considérons un scénario Big Bazar dans lequel l'ensemble de produits est P = {Riz, Pulse, Oil, Milk, Apple}. La base de données comprend six transactions où 1 représente la présence du produit et 0 représente l'absence du produit.

identifiant de transaction	Riz	Impulsion	Lait huileux	Pomme
t1	1	1	1	0	0
t2	0	1	1	1	0
t3	0	0	0	1	1
t4	1	1	0	1	0
t5	1	1	1	0	1
t6	1	1	1	1	1

L'algorithme Apriori fait les hypothèses données

combien y a-t-il de villes aux États-Unis d'Amérique

Tous les sous-ensembles d’un ensemble d’éléments fréquents doivent être fréquents.
Les sous-ensembles d’un ensemble d’éléments peu fréquents doivent être peu fréquents.
Fixez un niveau de support seuil. Dans notre cas, nous l'avons fixé à 50 pour cent.

Étape 1

Faites un tableau de fréquence de tous les produits qui apparaissent dans toutes les transactions. Maintenant, raccourcissez le tableau des fréquences pour ajouter uniquement les produits avec un niveau de support seuil supérieur à 50 %. On retrouve le tableau de fréquence donné.

Produit	Fréquence (Nombre de transactions)
Riz (R)	4
Impulsion(P)	5
Huile (O)	4
Lait(M)	4

Le tableau ci-dessus indique les produits fréquemment achetés par les clients.

Étape 2

Créez des paires de produits telles que RP, RO, RM, PO, PM, OM. Vous obtiendrez le tableau de fréquence donné.

Ensemble d'éléments	Fréquence (Nombre de transactions)
PR	4
RO	3
RM	2
APRÈS	4
MP	3
À PROPOS	2

Étape 3

Mettre en œuvre le même seuil de support de 50 pour cent et considérer les produits qui représentent plus de 50 pour cent. Dans notre cas, c'est plus de 3

Ainsi, nous obtenons RP, RO, PO et PM

Étape 4

Recherchez maintenant un ensemble de trois produits que les clients achètent ensemble. Nous obtenons la combinaison donnée.

RP et RO donnent RPO
PO et PM donnent POM

Étape 5

Calculez la fréquence des deux ensembles d’éléments et vous obtiendrez le tableau de fréquence donné.

liste des méthodes java

Ensemble d'éléments	Fréquence (Nombre de transactions)
RPO	4
POM	3

Si vous implémentez l'hypothèse de seuil, vous pouvez comprendre que l'ensemble de trois produits des clients est un RPO.

Nous avons considéré un exemple simple pour discuter de l'algorithme a priori dans l'exploration de données. En réalité, il existe des milliers de combinaisons de ce type.

Comment améliorer l’efficacité de l’algorithme Apriori ?

Il existe différentes méthodes utilisées pour l'efficacité de l'algorithme Apriori

Comptage d'ensembles d'éléments basé sur le hachage

Dans le comptage d'ensembles d'éléments basé sur le hachage, vous devez exclure le k-itemset dont le nombre de compartiments de hachage équivalent est inférieur au seuil correspondant à un ensemble d'éléments peu fréquent.

Réduction des transactions

Dans la réduction des transactions, une transaction n'impliquant aucun ensemble d'éléments X fréquents n'a plus de valeur lors des analyses ultérieures.

Algorithme Apriori dans l'exploration de données

Nous avons déjà discuté d'un exemple d'algorithme a priori lié à la génération fréquente d'ensembles d'éléments. L’algorithme Apriori a de nombreuses applications dans l’exploration de données.

Les principales exigences pour trouver les règles d'association dans l'exploration de données sont indiquées ci-dessous.

Utiliser la force brute

Analysez toutes les règles et trouvez les niveaux de support et de confiance pour chaque règle individuelle. Ensuite, éliminez les valeurs inférieures au seuil de support et aux niveaux de confiance.

xor en java

Les approches en deux étapes

L'approche en deux étapes est une meilleure option pour trouver les règles d'association que la méthode Brute Force.

Étape 1

Dans cet article, nous avons déjà expliqué comment créer le tableau de fréquence et calculer les ensembles d'éléments ayant une valeur de support supérieure à celle du support de seuil.

Étape 2

Pour créer des règles d'association, vous devez utiliser une partition binaire des ensembles d'éléments fréquents. Vous devez choisir ceux qui ont les niveaux de confiance les plus élevés.

Dans l'exemple ci-dessus, vous pouvez voir que la combinaison RPO était l'ensemble d'éléments fréquent. Maintenant, nous découvrons toutes les règles en utilisant RPO.

RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

Vous pouvez voir qu’il existe six combinaisons différentes. Donc, si vous avez n éléments, il y aura 2ⁿ- 2 règlements d'association candidats.

Avantages de l'algorithme Apriori

Il est utilisé pour calculer de grands ensembles d’éléments.
Simple à comprendre et à appliquer.

Inconvénients des algorithmes Apriori

L’algorithme a priori est une méthode coûteuse pour trouver du support puisque le calcul doit passer par l’ensemble de la base de données.
Parfois, vous avez besoin d’un grand nombre de règles candidates, ce qui devient donc plus coûteux en termes de calcul.

TechCodeview

Introduction

Soutien

Confiance

Ascenseur

Comment fonctionne l’algorithme Apriori dans le Data Mining ?

Comment améliorer l’efficacité de l’algorithme Apriori ?

Algorithme Apriori dans l'exploration de données

Avantages de l'algorithme Apriori

Inconvénients des algorithmes Apriori