Klasterizācija vai klasteru analīze ir mašīnmācīšanās paņēmiens, kas grupē nemarķēto datu kopu. To var definēt kā “Datu punktu grupēšanas veids dažādās klasteros, kas sastāv no līdzīgiem datu punktiem. Objekti ar iespējamām līdzībām paliek grupā, kurai ir mazāk vai nav līdzību ar citu grupu.
Tas tiek darīts, nemarķētajā datu kopā atrodot dažus līdzīgus modeļus, piemēram, formu, izmēru, krāsu, uzvedību utt., un sadalot tos atbilstoši šo līdzīgo modeļu esamībai un neesamībai.
Tas ir an mācīšanās bez uzraudzības metodi, tāpēc algoritmam netiek nodrošināta uzraudzība, un tas attiecas uz nemarķēto datu kopu.
Pēc šīs klasterizācijas metodes izmantošanas katram klasterim vai grupai tiek nodrošināts klastera ID. ML sistēma var izmantot šo ID, lai vienkāršotu lielu un sarežģītu datu kopu apstrādi.
padarīt skriptu izpildāmu
Klasterizācijas metodi parasti izmanto statistikas datu analīze.
Piezīme. Klasterizācija ir kaut kur līdzīga klasifikācijas algoritms , taču atšķirība ir izmantojamās datu kopas veids. Klasifikācijā mēs strādājam ar marķētu datu kopu, savukārt klasterizācijā mēs strādājam ar nemarķētu datu kopu.
Piemērs : Izpratīsim klasterizācijas paņēmienu, izmantojot reālo Mall piemēru: Apmeklējot jebkuru iepirkšanās centru, mēs varam novērot, ka lietas ar līdzīgu lietojumu tiek grupētas kopā. Piemēram, t-krekli ir sagrupēti vienā sadaļā, un bikses ir citās sadaļās, tāpat arī dārzeņu sadaļās tiek sagrupēti āboli, banāni, mango utt., lai mēs varētu viegli noskaidrot lietas. Klasterizācijas tehnika darbojas arī tādā pašā veidā. Citi klasterizācijas piemēri ir dokumentu grupēšana atbilstoši tēmai.
Klasterizācijas paņēmienu var plaši izmantot dažādos uzdevumos. Daži visizplatītākie šīs tehnikas lietojumi ir:
- Tirgus segmentācija
- Statistisko datu analīze
- Sociālo tīklu analīze
- Attēlu segmentēšana
- Anomāliju noteikšana utt.
Neatkarīgi no šiem vispārīgajiem lietojumiem to izmanto Amazon savā ieteikumu sistēmā sniegt ieteikumus atbilstoši iepriekšējai produktu meklēšanai. Netflix izmanto arī šo paņēmienu, lai ieteiktu filmas un tīmekļa seriālus saviem lietotājiem atbilstoši skatīšanās vēsturei.
Zemāk redzamā diagramma izskaidro klasterizācijas algoritma darbību. Mēs varam redzēt, ka dažādi augļi ir sadalīti vairākās grupās ar līdzīgām īpašībām.
Klasterizācijas metožu veidi
Klasterizācijas metodes ir plaši sadalītas Cieta klasterizācija (datu punkts pieder tikai vienai grupai) un Mīksta klasterizācija (datu punkti var piederēt arī citai grupai). Taču pastāv arī citas dažādas klasterizācijas pieejas. Tālāk ir norādītas galvenās mašīnmācībā izmantotās klasterizācijas metodes.
Fredijs Merkūrijs
Sadalīšanas klasterēšana
Tas ir klasterizācijas veids, kas sadala datus nehierarhiskās grupās. Tas ir pazīstams arī kā uz centroīdu balstīta metode . Visizplatītākais sadalīšanas klasterizācijas piemērs ir K-Means klasterizācijas algoritms .
Šādā veidā datu kopa ir sadalīta k grupu komplektā, kur K tiek izmantots, lai definētu iepriekš definētu grupu skaitu. Klastera centrs ir izveidots tā, lai attālums starp viena klastera datu punktiem būtu minimāls, salīdzinot ar cita klastera centroīdu.
mini rīkjosla Excel
Uz blīvumu balstīta klasterizācija
Uz blīvumu balstītā klasterizācijas metode savieno ļoti blīvās zonas klasteros, un patvaļīgi veidoti sadalījumi tiek veidoti tik ilgi, kamēr var savienot blīvo reģionu. Šis algoritms to dara, identificējot dažādus klasterus datu kopā un savienojot augsta blīvuma apgabalus klasteros. Blīvās zonas datu telpā ir sadalītas viena no otras ar retākiem apgabaliem.
Šie algoritmi var saskarties ar grūtībām grupēt datu punktus, ja datu kopai ir atšķirīgs blīvums un lieli izmēri.
Uz sadales modeli balstīta klasterizācija
Izplatīšanas modeļa klasterizācijas metodē dati tiek sadalīti, pamatojoties uz varbūtību, kā datu kopa pieder noteiktam sadalījumam. Grupēšana tiek veikta, pieņemot dažus sadalījumus parasti Gausa sadalījums .
Šāda veida piemērs ir Cerību maksimizēšanas klasterizācijas algoritms kas izmanto Gausa maisījumu modeļus (GMM).
Hierarhiskā klasterizācija
Hierarhisku klasterizāciju var izmantot kā alternatīvu sadalītajai klasterizācijai, jo nav nepieciešams iepriekš norādīt veidojamo klasteru skaitu. Izmantojot šo paņēmienu, datu kopa tiek sadalīta klasteros, lai izveidotu kokam līdzīgu struktūru, ko sauc arī par a dendrogramma . Novērojumus vai jebkuru kopu skaitu var atlasīt, nogriežot koku pareizā līmenī. Visizplatītākais šīs metodes piemērs ir Aglomeratīvais hierarhiskais algoritms .
Neskaidra klasterizācija
Neskaidra klasterizācija ir mīkstās metodes veids, kurā datu objekts var piederēt vairāk nekā vienai grupai vai klasterim. Katrai datu kopai ir dalības koeficientu kopa, kas ir atkarīga no klastera piederības pakāpes. Izplūdušais C nozīmē algoritms ir šāda veida klasterizācijas piemērs; to dažreiz sauc arī par Fuzzy k-means algoritmu.
Klasterizācijas algoritmi
Klasterizācijas algoritmus var iedalīt, pamatojoties uz to modeļiem, kas ir izskaidroti iepriekš. Ir publicēti dažāda veida klasterizācijas algoritmi, taču parasti tiek izmantoti tikai daži. Klasterizācijas algoritms ir balstīts uz mūsu izmantoto datu veidu. Piemēram, dažiem algoritmiem ir jāuzmin klasteru skaits dotajā datu kopā, savukārt dažiem ir nepieciešams atrast minimālo attālumu starp datu kopas novērojumiem.
Šeit mēs apspriežam galvenokārt populāros klasterizācijas algoritmus, kas tiek plaši izmantoti mašīnmācībā:
mysql saraksta lietotāji
Klasterizācijas pielietojumi
Tālāk ir sniegti daži plaši pazīstami klasterizācijas tehnikas pielietojumi mašīnmācībā.