APRIORI ALGORITMS - DATU IEGUVE

Apriori algoritms attiecas uz algoritmu, ko izmanto, lai aprēķinātu asociācijas noteikumus starp objektiem. Tas nozīmē, kā divi vai vairāki objekti ir saistīti viens ar otru. Citiem vārdiem sakot, mēs varam teikt, ka apriori algoritms ir asociācijas noteikums, kas analizē, ka cilvēki, kuri iegādājās produktu A, iegādājās arī produktu B.

Apriori algoritma galvenais mērķis ir izveidot asociācijas noteikumu starp dažādiem objektiem. Asociācijas noteikums apraksta, kā divi vai vairāki objekti ir saistīti viens ar otru. Apriori algoritmu sauc arī par biežu rakstu ieguvi. Parasti jūs izmantojat Apriori algoritmu datu bāzē, kas sastāv no liela skaita darījumu. Izpratīsim apriori algoritmu ar piemēra palīdzību; pieņemsim, ka dodaties uz Big Bazar un iegādājaties dažādus produktus. Tas palīdz klientiem viegli iegādāties savus produktus un palielina Big Bazar pārdošanas rādītājus. Šajā apmācībā mēs apspriedīsim apriori algoritmu ar piemēriem.

Ievads

Mēs ņemam piemēru, lai labāk izprastu jēdzienu. Noteikti ievērojāt, ka picu veikala pārdevējs kopā gatavo picu, bezalkoholisko dzērienu un maizes kociņu. Viņš arī piedāvā atlaidi saviem klientiem, kuri iegādājas šīs kombinācijas. Vai jūs kādreiz domājat, kāpēc viņš tā rīkojas? Viņš domā, ka klienti, kas pērk picu, pērk arī bezalkoholiskos dzērienus un maizes kociņus. Tomēr, veidojot kombinācijas, viņš to atvieglo klientiem. Tajā pašā laikā viņš arī uzlabo savus pārdošanas rezultātus.

Tāpat jūs dodaties uz Big Bazar, kur kopā atradīsit cepumus, čipsus un šokolādi. Tas parāda, ka veikalnieks ļauj klientiem ērti iegādāties šīs preces vienā un tajā pašā vietā.

Iepriekš minētie divi piemēri ir labākie asociācijas noteikumu piemēri

Atbalsts

Pārliecība

Lifts

Ņemsim piemēru, lai saprastu šo jēdzienu.

Mēs jau apspriedām iepriekš; jums ir nepieciešama milzīga datu bāze, kurā ir liels darījumu skaits. Pieņemsim, ka jums ir 4000 klientu darījumi Lielajā tirgū. Jums ir jāaprēķina atbalsts, pārliecība un paaugstinājums diviem produktiem, un jūs varat teikt, ka cepumi un šokolāde. Tas ir tāpēc, ka klienti bieži pērk šīs divas preces kopā.

No 4000 darījumiem 400 ietver cepumus, savukārt 600 ietver šokolādi, un šie 600 darījumi ietver 200, kas ietver cepumus un šokolādes. Izmantojot šos datus, mēs noskaidrosim atbalstu, pārliecību un pieaugumu.

Atbalsts

Atbalsts attiecas uz jebkura produkta noklusējuma popularitāti. Atbalstu var atrast kā darījumu skaita dalījuma daļu, kas ietver šo produktu, ar kopējo darījumu skaitu. Līdz ar to mēs saņemam

Atbalsts (cepumi) = (darījumi saistībā ar cepumiem) / (kopējais darījumu skaits)

= 400/4000 = 10 procenti.

pārvērst par virkni java

Pārliecība

Pārliecība attiecas uz iespēju, ka klienti kopā iegādājās gan cepumus, gan šokolādes. Tātad, lai iegūtu pārliecību, darījumu skaits, kas ietver gan cepumus, gan šokolādes, ir jāsadala ar kopējo darījumu skaitu.

Tāpēc

Pārliecība = (darījumi, kas saistīti gan ar cepumiem, gan šokolādi) / (kopējie darījumi, kas saistīti ar cepumiem)

= 200/400

= 50 procenti.

Tas nozīmē, ka 50 procenti klientu, kas iegādājās cepumus, iegādājās arī šokolādes konfektes.

Lifts

Apsveriet iepriekš minēto piemēru; lifts attiecas uz šokolādes konfekšu pārdošanas proporcijas pieaugumu, pārdodot cepumus. Zemāk ir doti pacēluma matemātiskie vienādojumi.

Lift = (pārliecība (cepumi — šokolādes konfektes)/ (atbalsts (cepumi)

= 50/10 = 5

Tas nozīmē, ka iespējamība, ka cilvēki kopā iegādāsies gan cepumus, gan šokolādes konfektes, ir piecas reizes lielāka, nekā pērkot cepumus atsevišķi. Ja pacelšanas vērtība ir mazāka par vienu, tas nozīmē, ka cilvēki, visticamāk, nepirks abas preces kopā. Jo lielāka vērtība, jo labāka ir kombinācija.

Kā Apriori algoritms darbojas datu ieguvē?

Mēs sapratīsim šo algoritmu ar piemēra palīdzību

Apsveriet Big Bazar scenāriju, kurā produktu komplekts ir P = {Rīsi, pākšaugi, eļļa, piens, ābols}. Datu bāzē ir iekļauti seši darījumi, kur 1 apzīmē produkta esamību un 0 apzīmē produkta neesamību.

darījuma ID	Rīsi	Pulss	Eļļa Piens	Apple
t1	1	1	1	0	0
t2	0	1	1	1	0
t3	0	0	0	1	1
t4	1	1	0	1	0
t5	1	1	1	0	1
t6	1	1	1	1	1

Apriori algoritms izdara dotos pieņēmumus

Visām biežas vienumu kopas apakškopām jābūt biežām.
Reti sastopamu vienumu kopas apakškopām ir jābūt retām.
Nosakiet sliekšņa atbalsta līmeni. Mūsu gadījumā mēs to esam fiksējuši 50 procentu apmērā.

1. darbība

Izveidojiet biežuma tabulu visiem produktiem, kas parādās visos darījumos. Tagad saīsiniet biežuma tabulu, lai pievienotu tikai tos produktus, kuru atbalsta sliekšņa līmenis pārsniedz 50 procentus. Atrodam doto frekvenču tabulu.

Produkts	Biežums (darījumu skaits)
Rīsi (R)	4
Pulss (P)	5
Eļļa (O)	4
Piens (M)	4

Iepriekšējā tabulā norādītas preces, kuras klienti bieži iegādājās.

2. darbība

Izveidojiet produktu pārus, piemēram, RP, RO, RM, PO, PM, OM. Jūs saņemsiet norādīto frekvenču tabulu.

Vienumu kopa	Biežums (darījumu skaits)
RP	4
RO	3
RM	2
PĒC	4
PM	3
PAR	2

3. darbība

Īstenojot to pašu sliekšņa atbalstu 50 procentu apmērā un apsvērt produktus, kas ir vairāk nekā 50 procenti. Mūsu gadījumā tas ir vairāk nekā 3

Tādējādi mēs iegūstam RP, RO, PO un PM

4. darbība

Tagad meklējiet trīs produktu komplektu, ko klienti pērk kopā. Mēs iegūstam doto kombināciju.

RP un RO dod RPO
PO un PM dod POM

5. darbība

Aprēķiniet abu vienumu kopu biežumu, un jūs iegūsit doto biežuma tabulu.

k tuvākā kaimiņa algoritms

Vienumu kopa	Biežums (darījumu skaits)
RPO	4
POM	3

Ja ieviešat sliekšņa pieņēmumu, varat noskaidrot, ka klientu trīs produktu kopa ir RPO.

Mēs esam apsvēruši vienkāršu piemēru, lai apspriestu apriori algoritmu datu ieguvē. Patiesībā jūs varat atrast tūkstošiem šādu kombināciju.

Kā uzlabot Apriori algoritma efektivitāti?

Apriori algoritma efektivitātei tiek izmantotas dažādas metodes

bloķēt reklāmas youtube android

Uz jaucējkodiem balstīta vienumu kopu skaitīšana

Jauktu vienumu kopu skaitīšanā ir jāizslēdz k vienumu kopa, kuras ekvivalentais jaukšanas segmenta skaits ir mazāks par slieksni, ir reta vienumu kopa.

Darījumu samazināšana

Veicot darījumu samazināšanu, darījums, kas neietver biežu X vienumu kopu, turpmākajās skenēs kļūst nevērtīgs.

Apriori algoritms datu ieguvē

Mēs jau esam apsprieduši apriori algoritma piemēru, kas saistīts ar biežu vienumu kopu ģenerēšanu. Apriori algoritmam ir daudz lietojumprogrammu datu ieguvē.

Tālāk ir norādītas galvenās prasības, lai atrastu asociācijas noteikumus datu ieguvē.

Izmantojiet brutālu spēku

Analizējiet visus noteikumus un atrodiet atbalsta un uzticamības līmeņus individuālajam noteikumam. Pēc tam noņemiet vērtības, kas ir mazākas par atbalsta un ticamības sliekšņa līmeni.

Divpakāpju pieejas

Divpakāpju pieeja ir labāka iespēja atrast asociācijas noteikumus nekā brutālā spēka metode.

1. darbība

Šajā rakstā mēs jau esam apsprieduši, kā izveidot biežuma tabulu un aprēķināt vienumu kopas, kurām ir lielāka atbalsta vērtība nekā sliekšņa atbalsta vērtībai.

2. darbība

Lai izveidotu asociācijas kārtulas, ir jāizmanto biežo vienumu kopu binārais nodalījums. Jums jāizvēlas tie, kuriem ir visaugstākais uzticamības līmenis.

Iepriekš minētajā piemērā varat redzēt, ka RPO kombinācija bija bieža vienumu kopa. Tagad mēs uzzinām visus noteikumus, izmantojot RPO.

RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

Var redzēt, ka ir sešas dažādas kombinācijas. Tāpēc, ja jums ir n elementi, būs 2ⁿ- 2 kandidātu apvienības noteikumi.

Apriori algoritma priekšrocības

To izmanto lielu vienību kopu aprēķināšanai.
Vienkārši saprotami un pielietojami.

Apriori algoritmu trūkumi

Apriori algoritms ir dārga metode, lai atrastu atbalstu, jo aprēķinam ir jāiet cauri visai datu bāzei.
Dažreiz jums ir nepieciešams liels skaits kandidātu noteikumu, tāpēc tas kļūst skaitļošanas ziņā dārgāks.