LOKĀLI LINEĀRA IEGULŠANA MAŠĪNMĀCĪBĀ

LLE (Lokāli lineāra iegulšana) ir neuzraudzīta pieeja, kas izstrādāta, lai pārveidotu datus no to sākotnējās augstas dimensijas telpas zemākas dimensijas attēlojumā, vienlaikus cenšoties saglabāt pamatā esošās nelineārās pazīmju struktūras būtiskos ģeometriskos raksturlielumus. LLE darbojas vairākos galvenajos posmos:

Pirmkārt, tas izveido tuvāko kaimiņu grafiku, lai attēlotu šīs vietējās attiecības. Pēc tam tas optimizē svara vērtības katram datu punktam, lai samazinātu rekonstrukcijas kļūdu, izsakot punktu kā tā kaimiņu lineāru kombināciju. Šī svara matrica atspoguļo savienojumu stiprumu starp punktiem.
Pēc tam LLE aprēķina zemākas dimensijas datu attēlojumu, atrodot īpašvektori matricas, kas iegūta no svara matricas. Šie īpašvektori attēlo visatbilstošākos virzienus samazinātajā telpā. Lietotāji var norādīt vēlamo izvades telpas izmēru, un LLE attiecīgi atlasa galvenos īpašvektorus.

Kā ilustrāciju apsveriet a Šveices ruļļa datu kopa , kas savā augstdimensiju telpā pēc būtības ir nelineāra. LLE šajā gadījumā strādā, lai projicētu šo sarežģīto struktūru uz zemākas dimensijas plakni, saglabājot tās atšķirīgās ģeometriskās īpašības visā transformācijas procesā.

LLE algoritma matemātiskā realizācija

LLE galvenā ideja ir tāda, ka lokāli, katra datu punkta tuvumā, dati atrodas aptuveni lineārā apakštelpā. LLE mēģina atlocīt vai atritināt datus, vienlaikus saglabājot šīs lokālās lineārās attiecības.

Šeit ir LLE algoritma matemātisks pārskats:

Minimizēt: $summa _{i} | x{_i} - summa _{j} w _{ij} x{_j}|^2$

Ievērojot: $summa {_j} w _{ij} = 1$

Kur:

x_iapzīmē i-to datu punktu.
In_ijir svari, kas samazina rekonstrukcijas kļūdu datu punktam x_iizmantojot savus kaimiņus.

Tā mērķis ir atrast zemākas dimensijas datu attēlojumu, vienlaikus saglabājot vietējās attiecības. LLE matemātiskā izteiksme ietver katra datu punkta rekonstrukcijas kļūdas samazināšanu, izsakot to kā tā svērto summu. k tuvākie kaimiņi 'iemaksas. Uz šo optimizāciju attiecas ierobežojumi, kas nodrošina, ka katra datu punkta svērumi ir 1. Lokāli lineārā iegulšana (LLE) ir dimensiju samazināšanas paņēmiens, ko izmanto mašīnmācībā un datu analīzē. Tas koncentrējas uz lokālo attiecību saglabāšanu starp datu punktiem, kartējot augstas dimensijas datus zemākas dimensijas telpā. Šeit mēs izskaidrosim LLE algoritmu un tā parametrus.

Lokāli lineārais iegulšanas algoritms

LLE algoritmu var iedalīt vairākos posmos:

Apkaimes izvēle: Katram datu punktam augstas dimensijas telpā LLE identificē savus k-tuvākos kaimiņus. Šis solis ir ļoti svarīgs, jo LLE pieņem, ka katru datu punktu var labi tuvināt ar tā kaimiņu lineāru kombināciju.
Svara matricas konstrukcija: LLE aprēķina svaru kopu katram datu punktam, lai izteiktu to kā tā kaimiņu lineāru kombināciju. Šie svari tiek noteikti tā, lai rekonstrukcijas kļūda tiktu samazināta līdz minimumam. Lai atrastu šos svarus, bieži izmanto lineāro regresiju.
Globālās struktūras saglabāšana: Pēc svara matricas izveidošanas LLE mērķis ir atrast zemākas dimensijas datu attēlojumu, kas vislabāk saglabā vietējās lineārās attiecības. Tas tiek darīts, katram datu punktam zemākas dimensijas telpā meklējot koordinātu kopu, kas samazina izmaksu funkciju. Šis izmaksu funkcija novērtē, cik labi katru datu punktu var attēlot tā kaimiņi.
Izvades iegulšana: Kad optimizācijas process ir pabeigts, LLE nodrošina datu galīgo zemākās dimensijas attēlojumu. Šis attēlojums tver būtisku datu struktūru, vienlaikus samazinot to dimensiju.

Parametri LLE algoritmā

LLE ir daži parametri, kas ietekmē tā darbību:

k (kaimiņu skaits): Šis parametrs nosaka, cik tuvāko kaimiņu tiek ņemti vērā, veidojot svara matricu. Lielāks k atspoguļo vairāk globālo attiecību, taču var radīt troksni. Mazāks k ir vērsts uz vietējām attiecībām, bet var būt jutīgs pret novirzēm. Atbilstoša k vērtības izvēle ir būtiska algoritma veiksmīgai darbībai.
Izvades telpas izmēri: Varat norādīt zemākās dimensijas telpas dimensiju, kurai tiks kartēti dati. To bieži izvēlas, pamatojoties uz problēmas prasībām un kompromisu starp skaitļošanas sarežģītību un informācijas saglabāšanu.
Attāluma metrika: LLE paļaujas uz attāluma metriku, lai noteiktu tuvumu starp datu punktiem. Kopējās izvēles ietver Eiklīda attālumu, Manhetenas attālumu vai pielāgotas attāluma funkcijas. Attāluma metrikas izvēle var ietekmēt rezultātus.
Regularizācija (pēc izvēles): Dažos gadījumos izmaksu funkcijai tiek pievienoti regulēšanas nosacījumi, lai novērstu pārmērīgu uzstādīšanu. Regularizācija var būt noderīga, strādājot ar trokšņainiem datiem vai ja ir liels kaimiņu skaits.
Optimizācijas algoritms (pēc izvēles): LLE bieži izmanto tādas optimizācijas metodes kā Singular Value Dekompozīcija (SVD) vai īpašvektoru metodes, lai atrastu zemākās dimensijas attēlojumu. Šīm optimizācijas metodēm var būt savi parametri, kurus var pielāgot.

LLE (lokāli lineāra iegulšana) ir ievērojams sasniegums strukturālajā analīzē, pārspējot tradicionālās blīvuma modelēšanas metodes, piemēram, lokālo PCA vai faktoru analizatoru maisījumi. Blīvuma modeļu ierobežojums ir saistīts ar to nespēju konsekventi izveidot globālu koordinātu kopu, kas spēj iegult novērojumus visā strukturālajā kolektorā. Līdz ar to tie izrādās nepietiekami tādiem uzdevumiem kā sākotnējās datu kopas zemu dimensiju projekciju ģenerēšana. Šie modeļi izceļas tikai ar lineāro pazīmju identificēšanu, kā parādīts tālāk esošajā attēlā. Tomēr tie nespēj uztvert sarežģītus izliektus modeļus, kas ir LLE raksturīga spēja.

saulains deola laikmets

Uzlabota skaitļošanas efektivitāte ar LLE. LLE piedāvā izcilu skaitļošanas efektivitāti, pateicoties retajai matricas apstrādei, pārspējot citus algoritmus.

Lokāli lineārās iegulšanas ieviešana

Bibliotēku importēšana

Python3

#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding>

Kods sākas, importējot nepieciešamās bibliotēkas, tostarp numpy, matplotlib.pyplot , make_swiss_roll no sklearn.datasets un LocallyLinearEmbedding no sklearn.kolektors .

Sintētiskās datu kopas ģenerēšana (Swiss Roll)

Python3

# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)>

Tas ģenerē sintētisku datu kopu, kas atgādina Swiss Roll, izmantojot scikit-learn funkciju make_swiss_roll.

n_samples norāda ģenerējamo datu punktu skaitu.
n_neighbors nosaka LLE algoritmā izmantoto kaimiņu skaitu.

Lokāli lineārās iegulšanas (LLE) lietošana

Python3

# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)>

LLE algoritma gadījums tiek izveidots ar LocallyLinearEmbedding. Parametrs n_neighbors nosaka kaimiņu skaitu, kas jāņem vērā iegulšanas procesā.

Pēc tam LLE algoritms tiek pielāgots sākotnējiem datiem X, izmantojot fit_transform metodi. Šī darbība samazina datu kopu līdz divām dimensijām (n_components=2).

Sākotnējo un samazināto datu vizualizācija

Python3

# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()>

Izvade:

cilpām java

Lokāli lineāra iegulšana

Otrajā apakšgrafikā samazinātie dati, kas iegūti no LLE (X_reduced), tiek vizualizēti līdzīgi kā sākotnējie dati. Datu punktu krāsu joprojām nosaka sākotnējo datu trešā iezīme (X[:, 2]). plt.tight_layout() funkcija tiek izmantota, lai nodrošinātu pareizu atstarpi starp apakšparaugiem.

LLE priekšrocības

Izmēru samazināšanas metodei, kas pazīstama kā lokāli lineāra iegulšana (LLE), ir daudz priekšrocību datu apstrādei un vizualizācijai. Šīs ir galvenās LLE priekšrocības:

Vietējo būvju saglabāšana : LLE lieliski spēj uzturēt datos esošās lokālās attiecības vai struktūras. Tas veiksmīgi uztver nelineāro kolektoru raksturīgo ģeometriju, saglabājot pāru attālumus starp blakus esošajiem datu punktiem.
Nelinearitātes apstrāde : LLE spēj uztvert datos nelineārus modeļus un struktūras, atšķirībā no lineārajām metodēm, piemēram, Galvenās sastāvdaļas analīze (PCA). Strādājot ar sarežģītām, izliektām vai savītām datu kopām, tas ir īpaši noderīgi.
Izmēru samazināšana : LLE samazina datu dimensiju, vienlaikus saglabājot to pamatīpašības. Īpaši strādājot ar augstas dimensijas datu kopām, šis samazinājums padara datu prezentāciju, izpēti un analīzi vienkāršāku.

LLE trūkumi

Dimensijas lāsts : LLE var piedzīvot dimensijas lāsts ja to izmanto ar īpaši augstas dimensijas datiem, tāpat kā daudzas citas dimensiju samazināšanas pieejas. Kaimiņu skaits, kas nepieciešams, lai uztvertu vietējo mijiedarbību, palielinās, palielinoties dimensijai, potenciāli palielinot pieejas skaitļošanas izmaksas.
Atmiņas un skaitļošanas prasības : lielām datu kopām svērtās blakus matricas izveide kā daļa no LLE var aizņemt daudz atmiņas. Īpatnējo vērtību sadalīšanas stadija var būt arī aprēķini aplikta ar nodokli lielām datu kopām.
Ārpuses un trokšņaini dati : LLE ir jutīga pret anomālijām un nervoziem datu punktiem. Iegulšanas kvalitāti var ietekmēt un lokālās lineārās attiecības var izkropļot ar novirzēm.

TechCodeview

Satura rādītājs

LLE algoritma matemātiskā realizācija

Lokāli lineārais iegulšanas algoritms

Parametri LLE algoritmā

Lokāli lineārās iegulšanas ieviešana

Bibliotēku importēšana

Python3

Sintētiskās datu kopas ģenerēšana (Swiss Roll)

Python3

Lokāli lineārās iegulšanas (LLE) lietošana

Python3

Sākotnējo un samazināto datu vizualizācija

Python3

LLE priekšrocības

LLE trūkumi