logo

Klasterizācija mašīnmācībā

Klasterizācija vai klasteru analīze ir mašīnmācīšanās paņēmiens, kas grupē nemarķēto datu kopu. To var definēt kā “Datu punktu grupēšanas veids dažādās klasteros, kas sastāv no līdzīgiem datu punktiem. Objekti ar iespējamām līdzībām paliek grupā, kurai ir mazāk vai nav līdzību ar citu grupu.

Tas tiek darīts, nemarķētajā datu kopā atrodot dažus līdzīgus modeļus, piemēram, formu, izmēru, krāsu, uzvedību utt., un sadalot tos atbilstoši šo līdzīgo modeļu esamībai un neesamībai.

Tas ir an mācīšanās bez uzraudzības metodi, tāpēc algoritmam netiek nodrošināta uzraudzība, un tas attiecas uz nemarķēto datu kopu.

Pēc šīs klasterizācijas metodes izmantošanas katram klasterim vai grupai tiek nodrošināts klastera ID. ML sistēma var izmantot šo ID, lai vienkāršotu lielu un sarežģītu datu kopu apstrādi.

padarīt skriptu izpildāmu

Klasterizācijas metodi parasti izmanto statistikas datu analīze.

Piezīme. Klasterizācija ir kaut kur līdzīga klasifikācijas algoritms , taču atšķirība ir izmantojamās datu kopas veids. Klasifikācijā mēs strādājam ar marķētu datu kopu, savukārt klasterizācijā mēs strādājam ar nemarķētu datu kopu.

Piemērs : Izpratīsim klasterizācijas paņēmienu, izmantojot reālo Mall piemēru: Apmeklējot jebkuru iepirkšanās centru, mēs varam novērot, ka lietas ar līdzīgu lietojumu tiek grupētas kopā. Piemēram, t-krekli ir sagrupēti vienā sadaļā, un bikses ir citās sadaļās, tāpat arī dārzeņu sadaļās tiek sagrupēti āboli, banāni, mango utt., lai mēs varētu viegli noskaidrot lietas. Klasterizācijas tehnika darbojas arī tādā pašā veidā. Citi klasterizācijas piemēri ir dokumentu grupēšana atbilstoši tēmai.

Klasterizācijas paņēmienu var plaši izmantot dažādos uzdevumos. Daži visizplatītākie šīs tehnikas lietojumi ir:

  • Tirgus segmentācija
  • Statistisko datu analīze
  • Sociālo tīklu analīze
  • Attēlu segmentēšana
  • Anomāliju noteikšana utt.

Neatkarīgi no šiem vispārīgajiem lietojumiem to izmanto Amazon savā ieteikumu sistēmā sniegt ieteikumus atbilstoši iepriekšējai produktu meklēšanai. Netflix izmanto arī šo paņēmienu, lai ieteiktu filmas un tīmekļa seriālus saviem lietotājiem atbilstoši skatīšanās vēsturei.

Zemāk redzamā diagramma izskaidro klasterizācijas algoritma darbību. Mēs varam redzēt, ka dažādi augļi ir sadalīti vairākās grupās ar līdzīgām īpašībām.

Klasterizācija mašīnmācībā

Klasterizācijas metožu veidi

Klasterizācijas metodes ir plaši sadalītas Cieta klasterizācija (datu punkts pieder tikai vienai grupai) un Mīksta klasterizācija (datu punkti var piederēt arī citai grupai). Taču pastāv arī citas dažādas klasterizācijas pieejas. Tālāk ir norādītas galvenās mašīnmācībā izmantotās klasterizācijas metodes.

Fredijs Merkūrijs
    Sadalīšanas klasterēšana Uz blīvumu balstīta klasterizācija Uz sadales modeli balstīta klasterizācija Hierarhiskā klasterizācija Neskaidra klasterizācija

Sadalīšanas klasterēšana

Tas ir klasterizācijas veids, kas sadala datus nehierarhiskās grupās. Tas ir pazīstams arī kā uz centroīdu balstīta metode . Visizplatītākais sadalīšanas klasterizācijas piemērs ir K-Means klasterizācijas algoritms .

Šādā veidā datu kopa ir sadalīta k grupu komplektā, kur K tiek izmantots, lai definētu iepriekš definētu grupu skaitu. Klastera centrs ir izveidots tā, lai attālums starp viena klastera datu punktiem būtu minimāls, salīdzinot ar cita klastera centroīdu.

mini rīkjosla Excel
Klasterizācija mašīnmācībā

Uz blīvumu balstīta klasterizācija

Uz blīvumu balstītā klasterizācijas metode savieno ļoti blīvās zonas klasteros, un patvaļīgi veidoti sadalījumi tiek veidoti tik ilgi, kamēr var savienot blīvo reģionu. Šis algoritms to dara, identificējot dažādus klasterus datu kopā un savienojot augsta blīvuma apgabalus klasteros. Blīvās zonas datu telpā ir sadalītas viena no otras ar retākiem apgabaliem.

Šie algoritmi var saskarties ar grūtībām grupēt datu punktus, ja datu kopai ir atšķirīgs blīvums un lieli izmēri.

Klasterizācija mašīnmācībā

Uz sadales modeli balstīta klasterizācija

Izplatīšanas modeļa klasterizācijas metodē dati tiek sadalīti, pamatojoties uz varbūtību, kā datu kopa pieder noteiktam sadalījumam. Grupēšana tiek veikta, pieņemot dažus sadalījumus parasti Gausa sadalījums .

Šāda veida piemērs ir Cerību maksimizēšanas klasterizācijas algoritms kas izmanto Gausa maisījumu modeļus (GMM).

Klasterizācija mašīnmācībā

Hierarhiskā klasterizācija

Hierarhisku klasterizāciju var izmantot kā alternatīvu sadalītajai klasterizācijai, jo nav nepieciešams iepriekš norādīt veidojamo klasteru skaitu. Izmantojot šo paņēmienu, datu kopa tiek sadalīta klasteros, lai izveidotu kokam līdzīgu struktūru, ko sauc arī par a dendrogramma . Novērojumus vai jebkuru kopu skaitu var atlasīt, nogriežot koku pareizā līmenī. Visizplatītākais šīs metodes piemērs ir Aglomeratīvais hierarhiskais algoritms .

Klasterizācija mašīnmācībā

Neskaidra klasterizācija

Neskaidra klasterizācija ir mīkstās metodes veids, kurā datu objekts var piederēt vairāk nekā vienai grupai vai klasterim. Katrai datu kopai ir dalības koeficientu kopa, kas ir atkarīga no klastera piederības pakāpes. Izplūdušais C nozīmē algoritms ir šāda veida klasterizācijas piemērs; to dažreiz sauc arī par Fuzzy k-means algoritmu.

Klasterizācijas algoritmi

Klasterizācijas algoritmus var iedalīt, pamatojoties uz to modeļiem, kas ir izskaidroti iepriekš. Ir publicēti dažāda veida klasterizācijas algoritmi, taču parasti tiek izmantoti tikai daži. Klasterizācijas algoritms ir balstīts uz mūsu izmantoto datu veidu. Piemēram, dažiem algoritmiem ir jāuzmin klasteru skaits dotajā datu kopā, savukārt dažiem ir nepieciešams atrast minimālo attālumu starp datu kopas novērojumiem.

Šeit mēs apspriežam galvenokārt populāros klasterizācijas algoritmus, kas tiek plaši izmantoti mašīnmācībā:

mysql saraksta lietotāji
    K-Means algoritms:K-means algoritms ir viens no populārākajiem klasterizācijas algoritmiem. Tas klasificē datu kopu, sadalot paraugus dažādās vienādu dispersiju klasteros. Šajā algoritmā ir jānorāda klasteru skaits. Tas ir ātrs ar mazāku aprēķinu skaitu, ar lineāro sarežģītību O(n). Vidējās nobīdes algoritms:Vidējās nobīdes algoritms mēģina atrast blīvās zonas datu punktu vienmērīgā blīvumā. Tas ir uz centroīdiem balstīta modeļa piemērs, kas darbojas, lai atjauninātu centroīda kandidātus, lai tie būtu punktu centrs noteiktā reģionā.DBSCAN algoritms:Tas stāv uz blīvumu balstītai lietojumprogrammu telpiskai klasterizācijai ar troksni . Tas ir uz blīvumu balstīta modeļa piemērs, kas līdzīgs vidējās nobīdes modelim, taču ar dažām ievērojamām priekšrocībām. Šajā algoritmā augsta blīvuma zonas tiek atdalītas ar zema blīvuma zonām. Šī iemesla dēļ kopas var atrast jebkurā patvaļīgā formā.Gaidījumu maksimizēšanas klasterizācija, izmantojot GMM:Šo algoritmu var izmantot kā alternatīvu k-means algoritmam vai tiem gadījumiem, kad K-vidējais var būt neveiksmīgs. GMM tiek pieņemts, ka datu punkti ir Gausa sadalīti.Aglomeratīvais hierarhiskais algoritms:Aglomeratīvais hierarhiskais algoritms veic augšupēju hierarhisko klasterizāciju. Šajā gadījumā katrs datu punkts sākumā tiek uzskatīts par vienu klasteru un pēc tam secīgi apvienots. Klasteru hierarhiju var attēlot kā koka struktūru.Afinitātes izplatība:Tas atšķiras no citiem klasterizācijas algoritmiem, jo ​​tam nav nepieciešams norādīt klasteru skaitu. Šajā gadījumā katrs datu punkts nosūta ziņojumu starp datu punktu pāriem līdz konverģencei. Tam ir O (N2T) laika sarežģītība, kas ir šī algoritma galvenais trūkums.

Klasterizācijas pielietojumi

Tālāk ir sniegti daži plaši pazīstami klasterizācijas tehnikas pielietojumi mašīnmācībā.

    Vēža šūnu identificēšanā:Klasterizācijas algoritmi tiek plaši izmantoti vēža šūnu identificēšanai. Tas sadala vēža un ne-vēža datu kopas dažādās grupās.Meklētājprogrammās:Meklētājprogrammas strādā arī pie klasteru veidošanas tehnikas. Meklēšanas rezultāts tiek parādīts, pamatojoties uz meklēšanas vaicājumam tuvāko objektu. Tas tiek darīts, grupējot līdzīgus datu objektus vienā grupā, kas atrodas tālu no citiem atšķirīgiem objektiem. Precīzs vaicājuma rezultāts ir atkarīgs no izmantotā klasterizācijas algoritma kvalitātes.Klientu segmentācija:To izmanto tirgus izpētē, lai segmentētu klientus, pamatojoties uz viņu izvēli un vēlmēm.Bioloģijā:To izmanto bioloģijas plūsmā, lai klasificētu dažādas augu un dzīvnieku sugas, izmantojot attēlu atpazīšanas paņēmienu.Zemes lietošanā:Klasterizācijas tehnika tiek izmantota līdzīgas zemes izmantošanas platību identificēšanai ĢIS datubāzē. Tas var būt ļoti noderīgi, lai noskaidrotu, kādam nolūkam konkrētā zeme jāizmanto, tas nozīmē, kādam mērķim tā ir piemērotāka.