logo

Džini indekss mašīnmācībā

Ievads

Mašīnmācība ir pārveidojusi veidu, kādā mēs apstrādājam un pārbaudām datus, un lēmumu koka algoritmi ir slavens klasifikācijas un regresijas uzdevumu lēmums. Džini indekss, citādi saukts par Džini piemaisījumu vai Džini koeficientu, ir nozīmīgs piemaisījumu mērs, ko izmanto lēmumu koka algoritmos. Šajā rakstā mēs izsmeļoši izpētīsim Gini indeksa ideju, tā skaitlisko formulu un tās lietojumus mašīnmācībā. Tāpat mēs pretstatīsim Džini indeksu un citus piemaisījumu mērījumus, runāsim par tā ierobežojumiem un priekšrocībām, kā arī pārbaudīsim tā reālo lietojumu kontekstuālo analīzi. Beidzot mēs piedāvāsim turpmākos gultņus izpētei šeit.

Kas ir Džini indekss?

Džini indekss ir piemaisījumu vai nevienlīdzības proporcija statistikas un monetārajos apstākļos. Mašīnmācībā tas tiek izmantots kā piemaisījumu mērs lēmumu koka algoritmos klasifikācijas uzdevumiem. Džini indekss mēra varbūtību, ka nejauši izvēlēts tests tiks nepareizi klasificēts ar lēmumu koka algoritmu, un tā vērtība mainās no 0 (pilnīgi tīrs) līdz 1 (pilnīgi netīrs).

Džini indeksa formula

Džini indekss ir aprites piemaisījumu vai nevienlīdzības proporcija, ko regulāri izmanto kā piemaisījumu mēru lēmumu koka algoritmos. Attiecībā uz lēmumu kokiem Gini indekss tiek izmantots, lai noteiktu labāko līdzekli datu sadalīšanai katrā koka mezglā.

Džini indeksa formula ir šāda:

Džini indekss mašīnmācībā

kur pi ir varbūtība, ka lietai ir vieta ar noteiktu klasi.

Piemēram, mums jāapsver binārās klasifikācijas problēma ar divām klasēm An un B. Ja varbūtība, ka A klases varbūtība ir p un B klases varbūtība ir (1-p), Džini indeksu var aprēķināt kā :

Džini indeksa vērtība ir no 0,0 līdz 0,5 binārās klasifikācijas problēmām, kur 0,0 parāda perfekti tīru mezglu (visiem piemēriem ir vieta ar līdzīgu klasi) un 0,5 parāda perfekti netīru mezglu (testi ir vienādi sadalīti abās klasēs ).

Džini indeksa izmantošana klasifikācijas problēmās

Džini indekss parasti tiek izmantots kā piemaisījumu mērs klasifikācijas problēmu lēmumu koka algoritmos. Lēmumu kokos katrs mezgls pievēršas elementam, un mērķis ir sadalīt datus apakškopās, kas būtībā ir tik tīras, kā varētu gaidīt. Piemaisījumu mērs (piemēram, Džini indekss) tiek izmantots, lai noteiktu labāko sadalījumu katrā mezglā.

Lai to ilustrētu, mums vajadzētu apsvērt lēmumu koka piemēru binārās klasifikācijas problēmai. Kokam ir divi elementi: vecums un ienākumi, un tā mērķis ir paredzēt neatkarīgi no tā, vai persona, iespējams, gatavojas iegādāties kādu preci. Koks ir veidots, izmantojot Džini indeksu kā piemaisījumu mēru.

Saknes mezglā Džini indekss tiek aprēķināts, ņemot vērā varbūtību, ka piemēriem ir vieta ar 0 vai 1. klasi. Mezgls tiek sadalīts, ņemot vērā komponentu, kas izraisa vislielāko Džini indeksa samazināšanos. Šis cikls tiek rekursīvi pārveidots katrai apakškopai, līdz tiek izpildīts apturēšanas pasākums.

Lēmumu koki

Lēmumu koks ir labi zināms mašīnmācīšanās algoritms, kas tiek izmantots gan klasifikācijas, gan regresijas uzdevumiem. Modelis tiek izstrādāts, rekursīvi sadalot datu kopu pieticīgākās apakškopās, ņemot vērā izceltās informācijas vērtības, kas noteiktas, lai ierobežotu turpmāko apakškopu piemaisījumus.

Katrā koka mezglā tiek pieņemts lēmums, ņemot vērā viena no svarīgākajām informācijas vērtībām, ar gala mērķi, lai nākamās apakškopas būtībā būtu tik tīras, kā patiesībā varētu gaidīt. Apakškopas tīrību regulāri novērtē ar piemaisījumu mēru, piemēram, Džini indeksu vai entropiju.

Lēmumu koka algoritmu var izmantot gan bināro, gan vairāku klašu klasifikācijas uzdevumiem, kā arī regresijas uzdevumiem. Binārās klasifikācijas uzdevumos lēmumu koks sadala datu kopu divās apakškopās, ņemot vērā binārās funkcijas vērtību, piemēram, jā vai nē. Vairāku klašu klasifikācijas uzdevumos lēmumu pieņemšanas koks sadala datu kopu daudzās apakškopās, ņemot vērā tiešās funkcijas vērtības, piemēram, sarkanu, zaļu vai zilu.

Džini indekss salīdzinājumā ar citiem piemaisījumu mērījumiem

Papildus Džini indeksam ir arī citi piemaisījumu mēri, kurus parasti izmanto lēmumu koka algoritmos, piemēram, entropija un informācijas iegūšana.

Entropija:

Mašīnmācībā entropija ir daļa no neatbilstības vai ievainojamības datu ķekarā. To parasti izmanto kā piemaisījumu mēru lēmumu koku algoritmos kopā ar Džini indeksu.

Lēmumu koka algoritmos tiek izmantota entropija, lai noteiktu labāko komponentu datu sadalīšanai katrā koka mezglā. Mērķis ir atrast elementu, kas izraisa vislielāko entropijas samazināšanos, kas attiecas uz komponentu, kas sniedz visvairāk informācijas par klasifikācijas problēmu.

Džini indekss mašīnmācībā

Lai gan entropiju un Džini indeksu parasti izmanto kā piemaisījumu mērus lēmumu koka algoritmos, tiem ir dažādas īpašības. Entropija ir jutīgāka pret klašu nosaukumu apriti un kopumā nodrošinās vairāk pielāgotu koku, savukārt Džini indekss ir mazāk jutīgs pret klases atzīmju apropriāciju un kopumā radīs ierobežotākus kokus ar mazāku šķelšanos. Lēmums par netīrības pasākumu ir atkarīgs no konkrētā jautājuma un datu atribūtiem.

Informācijas ieguve:

Informācijas iegūšana ir darbība, ko izmanto, lai novērtētu sadalījuma būtību, veidojot lēmumu koku. Lēmumu koka mērķis ir sadalīt datus apakškopās, kas būtībā ir tikpat viendabīgas, cik vien iespējams, kā objektīvajam mainīgajam, lai nākamo koku varētu izmantot, lai precīzi noteiktu jaunus datus. Informācijas ieguvums mēra entropijas vai piemaisījumu samazināšanos, ko panāk sadalīšana. Funkcija ar visnozīmīgāko informācijas ieguvumu tiek izvēlēta kā labākā iezīme, ko sadalīt katrā lēmumu koka mezglā.

Informācijas iegūšana parasti ir pasākums, lai novērtētu lēmumu koku sadalījumu raksturu, taču tas nav tas, kam jāpievērš uzmanība. Var izmantot arī dažādus mērījumus, piemēram, Džini indeksu vai nepareizas klasifikācijas līmeni. Lēmums par sadalīšanas bāzi ir atkarīgs no galvenās problēmas un izmantotās datu kopas atribūtiem.

Džini indeksa piemērs

Mums jāapsver binārās klasifikācijas problēma, kurā mums ir 10 piemēru datu kopa ar divām klasēm: “Pozitīvs” un “Negatīvs”. No 10 piemēriem 6 ir vieta ar 'pozitīvo' klasi un 4 ir vieta ar 'negatīvo' klasi.

Lai aprēķinātu datu kopas Džini indeksu, mēs sākotnēji aprēķinām katras klases varbūtību:

p_1 = 6/10 = 0,6 (pozitīvs)

p_2 = 4/10 = 0,4 (negatīvs)

Pēc tam tajā brīdī mēs izmantojam Džini indeksa formulu, lai aprēķinātu datu kopas piemaisījumu:

Džini(S) = 1 — (p_1^2 + p_2^2)

= 1 – (0,6^2 + 0,4^2)

= 0,48

Tātad datu kopas Džini indekss ir 0,48.

Pašlaik pieņemsim, ka mums ir jāsadala datu kopa elementā “X”, kam ir divas iespējamās vērtības: “A” un “B”. Mēs sadalām datu kopu divās apakškopās, ņemot vērā komponentu:

1. apakškopa (X = A): 4 pozitīvs, 1 negatīvs

2. apakškopa (X = B): 2 pozitīvs, 3 negatīvs

Lai aprēķinātu Džini indeksa samazinājumu šim sadalījumam, mēs sākotnēji aprēķinām katras apakškopas Džini indeksu:

Džini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Džini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Pēc tam mēs izmantojam informācijas iegūšanas formulu, lai aprēķinātu Džini indeksa samazināšanos:

IG(S, X) = Džini(S) - ((5/10 * Džini(S_1)) + (5/10 * Džini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Tātad informācijas ieguvums (t.i., Džini indeksa samazinājums), sadalot datu kopu iezīmētā vietā “X”, ir 0,08.

Šajā situācijā, ja mēs aprēķinām informācijas ieguvumu visiem elementiem un izvēlamies to, kuram ir visievērojamākais informācijas ieguvums, šis komponents tiks izvēlēts kā vislabākais komponents, ko sadalīt lēmumu koka saknes mezglā.

Priekšrocības:

Džini indekss ir plaši izmantots pasākums, lai novērtētu lēmumu koku sadalījumu raksturu, un tam ir dažas priekšrocības salīdzinājumā ar dažādiem rādītājiem, piemēram, entropiju vai nepareizas klasifikācijas līmeni. Šeit ir daļa no galvenajām Džini indeksa izmantošanas priekšrocībām:

git push komanda

Skaitļošanas ziņā efektīva: Džini indekss ir mazāk sarežģīts un skaitļošanas ziņā ātrāks mērs, kas kontrastē ar dažādiem mēriem, piemēram, entropiju, kas ietver logaritmu aprēķināšanu.

Intuitīva interpretācija: Džini indekss ir vienkāršs un interpretējams. Tas mēra varbūtību, ka nejauši izvēlēts piemērs no kopas tiks nepareizi klasificēts gadījumā, ja tas nejauši atzīmēts atbilstoši klases pārnešanai kopā.

Piemērots binārajai klasifikācijai: Džini indekss ir īpaši spēcīgs binārās klasifikācijas problēmām, kur objektīvajam mainīgajam ir tikai divas klases. Ir zināms, ka šādos gadījumos Džini indekss ir stabilāks nekā citi rādītāji.

Izturīga klases nelīdzsvarotība: Džini indekss ir mazāk jutīgs pret klases nelīdzsvarotību, salīdzinot ar dažādiem rādītājiem, piemēram, precizitāti vai nepareizas klasifikācijas līmeni. Tas ir tāpēc, ka Džini indekss ir atkarīgs no vispārīgā piemēru apjoma katrā klasē, nevis tiešiem skaitļiem.

Mazāk pakļauti pārklāšanai: Džini indekss kopumā veidos pieticīgākus lēmumu kokus pretstatā dažādiem rādītājiem, kas padara to mazāk pakļautu pārmērībai. Tas ir tāpēc, ka Džini indekss kopumā dos priekšroku pazīmēm, kas padara pieticīgākas datu paketes, kas mazina pārmērības iespējas.

Trūkumi:

Lai gan Džini indeksam ir dažas priekšrocības kā lēmumu koku sadalīšanas mēram, tam ir arī daži trūkumi. Šeit ir daļa no galvenajiem Džini indeksa izmantošanas trūkumiem:

Novirze uz funkcijām ar daudzām kategorijām: Džini indekss parasti ir vērsts uz funkcijām ar daudzām kategorijām vai vērtībām, jo ​​tās var vairāk sadalīt un sadalīt datus. Tas var izraisīt pārmērīgu uzstādīšanu un sarežģītāku lēmumu koku.

Nav piemērots nepārtrauktiem mainīgajiem: Džini indekss nav piemērots nepārtrauktiem mainīgajiem, jo ​​tas prasa mainīgo diskretizāciju kategorijās vai tvertnēs, kas var izraisīt informācijas zudumu un samazinātu precizitāti.

Ignorē funkciju mijiedarbību: Džini indekss tikai domā par katras funkcijas individuālo tālredzīgo spēku un ignorē mijiedarbību starp funkcijām. Tas var izraisīt sliktu sadalījumu un mazāk precīzas prognozes.

Nav ideāli piemērots dažām datu kopām: dažkārt Džini indekss var nebūt ideāls pasākums, lai novērtētu sadalījumu raksturu lēmumu kokā. Piemēram, ja objektīvais mainīgais ir ārkārtīgi slīps vai nelīdzsvarots, piemērotāki varētu būt dažādi pasākumi, piemēram, informācijas ieguves vai ieguvuma proporcija.

Nosliece uz neobjektivitāti trūkstošu vērtību klātbūtnē: Džini indekss var būt neobjektīvs trūkstošu vērtību klātbūtnē, jo tas parasti ir vērsts uz līdzekļiem ar mazāk trūkstošām vērtībām neatkarīgi no tā, vai tās nav visinformatīvākās.

Džini indeksa reālās pasaules lietojumprogrammas

Džini indekss ir izmantots dažādās lietojumprogrammās mašīnmācībā, piemēram, izspiešanas atrašanās vietas noteikšanai, kredītpunktu noteikšanai un klientu sadalīšanai. Piemēram, izspiešanas atklāšanā Džini indeksu var izmantot, lai atšķirtu dizainus datu apmaiņas datos un atpazītu dīvainus uzvedības veidus. Kredītvērtējumā Džini indeksu var izmantot, lai paredzētu saistību nepildīšanas iespējamību, ņemot vērā tādus mainīgos lielumus kā ienākumi, nenomaksātā parāda attiecība pret mājas algu un aizdevuma atmaksas uzskaiti. Klientu sadalē Džini indeksu var izmantot, lai sagrupētu klientus, ņemot vērā viņu uzvedības veidu un tieksmes.

Nākotnes pētījumi

Neraugoties uz tā neierobežoto izmantošanu lēmumu koku algoritmos, Džini indeksa izpētei joprojām ir grāds. Viena no pētniecības jomām ir jaunu piemaisījumu mēru attīstība, kas var novērst Džini indeksa ierobežojumus, piemēram, tā tieksmi uz faktoriem ar dažādiem līmeņiem. Vēl viena pētniecības joma ir lēmumu koku algoritmu racionalizēšana, izmantojot Džini indeksu, piemēram, apģērbu metožu izmantošana, lai strādātu pie lēmumu koku precizitātes.

Secinājums

Džini indekss ir nozīmīgs piemaisījumu mērs, ko izmanto klasifikācijas uzdevumu lēmumu koka algoritmos. Tas mēra varbūtību, ka nejauši izvēlēts tests tiks nepareizi klasificēts ar lēmumu koka algoritmu, un tā vērtība mainās no 0 (pilnīgi tīrs) līdz 1 (pilnīgi netīrs). Džini indekss ir vienkāršs un veikts, skaitļošanas ziņā produktīvs un jaudīgs izņēmumiem. Tas ir izmantots dažādās mašīnmācības lietojumprogrammās, piemēram, maldinošas informācijas atklāšanā, kredītpunktu vērtēšanā un klientu sadalē. Lai gan Džini indeksam ir daži ierobežojumi, joprojām ir pieejami pētījumi par tā uzlabošanu un jaunu piemaisījumu mērījumu uzlabošanu.