Apriori algoritms attiecas uz algoritmu, ko izmanto, lai aprēķinātu asociācijas noteikumus starp objektiem. Tas nozīmē, kā divi vai vairāki objekti ir saistīti viens ar otru. Citiem vārdiem sakot, mēs varam teikt, ka apriori algoritms ir asociācijas noteikums, kas analizē, ka cilvēki, kuri iegādājās produktu A, iegādājās arī produktu B.
Apriori algoritma galvenais mērķis ir izveidot asociācijas noteikumu starp dažādiem objektiem. Asociācijas noteikums apraksta, kā divi vai vairāki objekti ir saistīti viens ar otru. Apriori algoritmu sauc arī par biežu rakstu ieguvi. Parasti jūs izmantojat Apriori algoritmu datu bāzē, kas sastāv no liela skaita darījumu. Izpratīsim apriori algoritmu ar piemēra palīdzību; pieņemsim, ka dodaties uz Big Bazar un iegādājaties dažādus produktus. Tas palīdz klientiem viegli iegādāties savus produktus un palielina Big Bazar pārdošanas rādītājus. Šajā apmācībā mēs apspriedīsim apriori algoritmu ar piemēriem.
Ievads
Mēs ņemam piemēru, lai labāk izprastu jēdzienu. Noteikti ievērojāt, ka picu veikala pārdevējs kopā gatavo picu, bezalkoholisko dzērienu un maizes kociņu. Viņš arī piedāvā atlaidi saviem klientiem, kuri iegādājas šīs kombinācijas. Vai jūs kādreiz domājat, kāpēc viņš tā rīkojas? Viņš domā, ka klienti, kas pērk picu, pērk arī bezalkoholiskos dzērienus un maizes kociņus. Tomēr, veidojot kombinācijas, viņš to atvieglo klientiem. Tajā pašā laikā viņš arī uzlabo savus pārdošanas rezultātus.
Tāpat jūs dodaties uz Big Bazar, kur kopā atradīsit cepumus, čipsus un šokolādi. Tas parāda, ka veikalnieks ļauj klientiem ērti iegādāties šīs preces vienā un tajā pašā vietā.
Iepriekš minētie divi piemēri ir labākie asociācijas noteikumu piemēri
Ņemsim piemēru, lai saprastu šo jēdzienu.
Mēs jau apspriedām iepriekš; jums ir nepieciešama milzīga datu bāze, kurā ir liels darījumu skaits. Pieņemsim, ka jums ir 4000 klientu darījumi Lielajā tirgū. Jums ir jāaprēķina atbalsts, pārliecība un paaugstinājums diviem produktiem, un jūs varat teikt, ka cepumi un šokolāde. Tas ir tāpēc, ka klienti bieži pērk šīs divas preces kopā.
No 4000 darījumiem 400 ietver cepumus, savukārt 600 ietver šokolādi, un šie 600 darījumi ietver 200, kas ietver cepumus un šokolādes. Izmantojot šos datus, mēs noskaidrosim atbalstu, pārliecību un pieaugumu.
Atbalsts
Atbalsts attiecas uz jebkura produkta noklusējuma popularitāti. Atbalstu var atrast kā darījumu skaita dalījuma daļu, kas ietver šo produktu, ar kopējo darījumu skaitu. Līdz ar to mēs saņemam
Atbalsts (cepumi) = (darījumi saistībā ar cepumiem) / (kopējais darījumu skaits)
= 400/4000 = 10 procenti.
pārvērst par virkni java
Pārliecība
Pārliecība attiecas uz iespēju, ka klienti kopā iegādājās gan cepumus, gan šokolādes. Tātad, lai iegūtu pārliecību, darījumu skaits, kas ietver gan cepumus, gan šokolādes, ir jāsadala ar kopējo darījumu skaitu.
Tāpēc
Pārliecība = (darījumi, kas saistīti gan ar cepumiem, gan šokolādi) / (kopējie darījumi, kas saistīti ar cepumiem)
= 200/400
= 50 procenti.
Tas nozīmē, ka 50 procenti klientu, kas iegādājās cepumus, iegādājās arī šokolādes konfektes.
Lifts
Apsveriet iepriekš minēto piemēru; lifts attiecas uz šokolādes konfekšu pārdošanas proporcijas pieaugumu, pārdodot cepumus. Zemāk ir doti pacēluma matemātiskie vienādojumi.
Lift = (pārliecība (cepumi — šokolādes konfektes)/ (atbalsts (cepumi)
= 50/10 = 5
Tas nozīmē, ka iespējamība, ka cilvēki kopā iegādāsies gan cepumus, gan šokolādes konfektes, ir piecas reizes lielāka, nekā pērkot cepumus atsevišķi. Ja pacelšanas vērtība ir mazāka par vienu, tas nozīmē, ka cilvēki, visticamāk, nepirks abas preces kopā. Jo lielāka vērtība, jo labāka ir kombinācija.
Kā Apriori algoritms darbojas datu ieguvē?
Mēs sapratīsim šo algoritmu ar piemēra palīdzību
Apsveriet Big Bazar scenāriju, kurā produktu komplekts ir P = {Rīsi, pākšaugi, eļļa, piens, ābols}. Datu bāzē ir iekļauti seši darījumi, kur 1 apzīmē produkta esamību un 0 apzīmē produkta neesamību.
darījuma ID | Rīsi | Pulss | Eļļa Piens | Apple | |
---|---|---|---|---|---|
t1 | 1 | 1 | 1 | 0 | 0 |
t2 | 0 | 1 | 1 | 1 | 0 |
t3 | 0 | 0 | 0 | 1 | 1 |
t4 | 1 | 1 | 0 | 1 | 0 |
t5 | 1 | 1 | 1 | 0 | 1 |
t6 | 1 | 1 | 1 | 1 | 1 |
Apriori algoritms izdara dotos pieņēmumus
- Visām biežas vienumu kopas apakškopām jābūt biežām.
- Reti sastopamu vienumu kopas apakškopām ir jābūt retām.
- Nosakiet sliekšņa atbalsta līmeni. Mūsu gadījumā mēs to esam fiksējuši 50 procentu apmērā.
1. darbība
Izveidojiet biežuma tabulu visiem produktiem, kas parādās visos darījumos. Tagad saīsiniet biežuma tabulu, lai pievienotu tikai tos produktus, kuru atbalsta sliekšņa līmenis pārsniedz 50 procentus. Atrodam doto frekvenču tabulu.
Produkts | Biežums (darījumu skaits) |
---|---|
Rīsi (R) | 4 |
Pulss (P) | 5 |
Eļļa (O) | 4 |
Piens (M) | 4 |
Iepriekšējā tabulā norādītas preces, kuras klienti bieži iegādājās.
2. darbība
Izveidojiet produktu pārus, piemēram, RP, RO, RM, PO, PM, OM. Jūs saņemsiet norādīto frekvenču tabulu.
Vienumu kopa | Biežums (darījumu skaits) |
---|---|
RP | 4 |
RO | 3 |
RM | 2 |
PĒC | 4 |
PM | 3 |
PAR | 2 |
3. darbība
Īstenojot to pašu sliekšņa atbalstu 50 procentu apmērā un apsvērt produktus, kas ir vairāk nekā 50 procenti. Mūsu gadījumā tas ir vairāk nekā 3
Tādējādi mēs iegūstam RP, RO, PO un PM
4. darbība
Tagad meklējiet trīs produktu komplektu, ko klienti pērk kopā. Mēs iegūstam doto kombināciju.
- RP un RO dod RPO
- PO un PM dod POM
5. darbība
Aprēķiniet abu vienumu kopu biežumu, un jūs iegūsit doto biežuma tabulu.
k tuvākā kaimiņa algoritms
Vienumu kopa | Biežums (darījumu skaits) |
---|---|
RPO | 4 |
POM | 3 |
Ja ieviešat sliekšņa pieņēmumu, varat noskaidrot, ka klientu trīs produktu kopa ir RPO.
Mēs esam apsvēruši vienkāršu piemēru, lai apspriestu apriori algoritmu datu ieguvē. Patiesībā jūs varat atrast tūkstošiem šādu kombināciju.
Kā uzlabot Apriori algoritma efektivitāti?
Apriori algoritma efektivitātei tiek izmantotas dažādas metodes
bloķēt reklāmas youtube android
Uz jaucējkodiem balstīta vienumu kopu skaitīšana
Jauktu vienumu kopu skaitīšanā ir jāizslēdz k vienumu kopa, kuras ekvivalentais jaukšanas segmenta skaits ir mazāks par slieksni, ir reta vienumu kopa.
Darījumu samazināšana
Veicot darījumu samazināšanu, darījums, kas neietver biežu X vienumu kopu, turpmākajās skenēs kļūst nevērtīgs.
Apriori algoritms datu ieguvē
Mēs jau esam apsprieduši apriori algoritma piemēru, kas saistīts ar biežu vienumu kopu ģenerēšanu. Apriori algoritmam ir daudz lietojumprogrammu datu ieguvē.
Tālāk ir norādītas galvenās prasības, lai atrastu asociācijas noteikumus datu ieguvē.
Izmantojiet brutālu spēku
Analizējiet visus noteikumus un atrodiet atbalsta un uzticamības līmeņus individuālajam noteikumam. Pēc tam noņemiet vērtības, kas ir mazākas par atbalsta un ticamības sliekšņa līmeni.
Divpakāpju pieejas
Divpakāpju pieeja ir labāka iespēja atrast asociācijas noteikumus nekā brutālā spēka metode.
1. darbība
Šajā rakstā mēs jau esam apsprieduši, kā izveidot biežuma tabulu un aprēķināt vienumu kopas, kurām ir lielāka atbalsta vērtība nekā sliekšņa atbalsta vērtībai.
2. darbība
Lai izveidotu asociācijas kārtulas, ir jāizmanto biežo vienumu kopu binārais nodalījums. Jums jāizvēlas tie, kuriem ir visaugstākais uzticamības līmenis.
Iepriekš minētajā piemērā varat redzēt, ka RPO kombinācija bija bieža vienumu kopa. Tagad mēs uzzinām visus noteikumus, izmantojot RPO.
RP-O, RO-P, PO-R, O-RP, P-RO, R-PO
Var redzēt, ka ir sešas dažādas kombinācijas. Tāpēc, ja jums ir n elementi, būs 2n- 2 kandidātu apvienības noteikumi.
Apriori algoritma priekšrocības
- To izmanto lielu vienību kopu aprēķināšanai.
- Vienkārši saprotami un pielietojami.
Apriori algoritmu trūkumi
- Apriori algoritms ir dārga metode, lai atrastu atbalstu, jo aprēķinam ir jāiet cauri visai datu bāzei.
- Dažreiz jums ir nepieciešams liels skaits kandidātu noteikumu, tāpēc tas kļūst skaitļošanas ziņā dārgāks.