MAŠĪNMĀCĪŠANĀS ALGORITMI - AI-ML-DS AR PYTHON

Mašīnmācīšanās algoritmi ir skaitļošanas modeļi, kas ļauj datoriem izprast modeļus un prognozēt vai pieņemt spriedumus, pamatojoties uz datiem, bez īpašas programmēšanas. Šie algoritmi veido mūsdienu mākslīgā intelekta pamatu un tiek izmantoti plašā lietojumprogrammu klāstā, tostarp attēlu un runas atpazīšanā, dabiskās valodas apstrādē, ieteikumu sistēmās, krāpšanas atklāšanā, autonomajos automobiļos utt.

Šis Mašīnmācīšanās algoritmi rakstā tiks apskatīti visi būtiskie mašīnmācības algoritmi, piemēram Atbalsta vektora mašīnu, lēmumu pieņemšanu, loģistikas regresiju, naivu bayees klasifikatoru, nejaušu mežu, k-vidējo klasterizāciju, pastiprināšanas mācīšanos, vektoru, hierarhisko klasterizāciju, xgboost, adaboost, loģistika utt.

Mašīnmācīšanās algoritmu veidi

Ir trīs veidu mašīnmācīšanās algoritmi.

Uzraudzīta mācīšanās
- Regresija
- Klasifikācija
Mācības bez uzraudzības
- Klasterizācija
- Izmēru samazināšana
Pastiprināšanas mācības

Mašīnmācīšanās algoritmu veidi

1. Uzraudzītas mācīšanās algoritms

Uzraudzīta mācīšanās ir mašīnmācīšanās algoritmu veids, kurā modeļa vai algoritmu apmācīšanai izmantojām marķētu datu kopu. Algoritma mērķis ir iemācīties kartēšanu no ievades datiem uz izvades etiķetēm, ļaujot tam veikt prognozes vai klasifikācijas par jauniem, neredzētiem datiem.

Uzraudzīti mašīnmācīšanās algoritmi
Lineārais modelis: Regresija Parastā mazākā kvadrāta regresija Vienkārša lineārā regresija Daudzkārtēja lineārā regresija Polinoma regresija Ortogonāla atbilstības meklēšana (OMP) Bajesa regresija Kvantilā regresija Izotoniskā regresija Pakāpeniska regresija Mazākā leņķa regresija (LARS) Klasifikācija: Loģistiskā regresija Sigmoid un Softmax funkcijas Regularizācija : Laso (L1 legalizācija) Ridge (L2 legalizācija) Ridža regresija Ridge klasifikators Elastīgs tīkls LARS Laso K — tuvākie kaimiņi (KNN): Brutālā spēka algoritmi Ball Tree un KD Tree algoritmi K-Tuvāko kaimiņu (KNN) klasifikators K-Tuvāko kaimiņu (KNN) regresors Atbalsta vektora mašīnas: Atbalsta Vector Machines Regressor Dažādas kodola funkcijas SVM Stohastiskā gradienta nolaišanās Stohastiskā gradienta nolaišanās klasifikators Stohastiskā gradienta nolaišanās regresors Dažādas zaudējumu funkcijas SGD Lēmumu koks: Lēmumu koka algoritmi Iteratīvie dihotomisera 3 (ID3) algoritmi C5. Algoritmi Klasifikācijas un regresijas koku algoritmi Lēmumu koka klasifikators Lēmumu koka regresors Ansambļa mācības: Iepakošana maisos (sāknēšanas datu apkopošana) Nejaušais mežs Papildu koki Paaugstināšana AdaBoost XGBoost CatBoost Gradientu paaugstināšanas mašīnas (GBM) LightGBM Sakraušana Ģeneratīvais modelis Naivai Beiji Gausa naivais Bejs Multinomiāls Naive Bayes Bernulli Naive Bayes Gausa procesi Gausa procesa regresija (GPR) Gausa procesu klasifikācija (GPC) Gausa diskriminācijas analīze Lineārā diskriminācijas analīze (LDA) Kvadrātiskās diskriminācijas analīze (QDA) Bajesa ticības tīkli Slēptie Markova modeļi (HMM) Laika rindas prognozēšana: Laika rindu vizualizācija un analīze: Laika sērijas komponenti: tendence, sezonalitāte un troksnis Laika rindu sadalīšanas metodes Sezonas pielāgošana un atšķirības Autokorelācija un daļējas autokorelācijas funkcijas Papildināts Dikija-Fullera tests Laika rindu sezonālā sadalīšana (STL sadalīšana) Box-Jenkins metodoloģija ARIMA modeļiem Laika rindu prognozēšanas algoritmi: Kustīgais vidējais (MA) un svērtais mainīgais vidējais Eksponenciālās izlīdzināšanas metodes (vienkāršā, dubultā un trīskāršā) Autoregresīvie (AR) modeļi Kustīgā vidējā (MA) modeļi Autoregresīvie integrētie mainīgā vidējā (ARIMA) modeļi Loesa laika rindu sezonālā sadalīšana (STL) Sezonālie autoregresīvie integrētie mainīgā vidējā (SARIMA) modeļi ARIMAX un SARIMAX modeļi Uzraudzīta dimensiju samazināšanas tehnika: Lineārā diskriminācijas analīze (LDA) Dažus no uzraudzītajiem mašīnmācīšanās algoritmiem var izmantot gan klasifikācijai, gan regresijai ar nelielām izmaiņām tu esi salaist Vairāku klašu un vairāku izvades algoritmi: Daudzklases klasifikācija OneVsRest klasifikators Vairāku etiķešu klasifikācija Vairāku izvadu regresija Klasifikācijas un regresijas algoritmu metrika: Regresijas metrika: Vidējā kvadrātā kļūda (MSE) Vidējā kvadrātiskā kļūda (RMSE) Vidējā absolūtā kļūda (MAE) R kvadrātā Pielāgots R kvadrātā Klasifikācijas metrika: Apjukuma matrica Precizitāte Atsaukt Specifiskums F1 rezultāts Laukums zem ROC līknes (AUC-ROC) Varbūtības kalibrēšana Kalibrēšanas līknes Klasifikatora kalibrēšana Savstarpējās validācijas paņēmiens: K-kārtīga savstarpēja validācija Stratificēta k-Fold krusteniskā validācija Atstājiet vienreizēju savstarpēju validāciju Jauktā secībā sadalīta krusteniskā validācija Laika rindas savstarpējā validācija Optimizācijas tehnika: Gradienta nolaišanās Stohastiskā gradienta nolaišanās Mini-partijas gradienta nolaišanās Uz impulsu balstīta gradienta nolaišanās Ņūtona optimizācijas metodes Ņūtona algoritms Kvaziņūtona metodes (BFGS, L-BFGS) Konjugātais gradients Vietējās meklēšanas optimizācijas metodes Kalnā kāpšana Tabu meklēšana

Uzraudzīti mašīnmācīšanās algoritmi

Lineārais modelis:
- Regresija
  - Parastā mazākā kvadrāta regresija
  - Vienkārša lineārā regresija
  - Daudzkārtēja lineārā regresija
  - Polinoma regresija
  - Ortogonāla atbilstības meklēšana (OMP)
  - Bajesa regresija
  - Kvantilā regresija
  - Izotoniskā regresija
  - Pakāpeniska regresija
  - Mazākā leņķa regresija (LARS)
- Klasifikācija:
  - Loģistiskā regresija
    - Sigmoid un Softmax funkcijas
- Regularizācija :
  - Laso (L1 legalizācija)
  - Ridge (L2 legalizācija)
    - Ridža regresija
    - Ridge klasifikators
  - Elastīgs tīkls
  - LARS Laso
K — tuvākie kaimiņi (KNN):
- Brutālā spēka algoritmi
- Ball Tree un KD Tree algoritmi
- K-Tuvāko kaimiņu (KNN) klasifikators
- K-Tuvāko kaimiņu (KNN) regresors
Atbalsta vektora mašīnas:
- Atbalsta Vector Machines Regressor
- Dažādas kodola funkcijas SVM
Stohastiskā gradienta nolaišanās
- Stohastiskā gradienta nolaišanās klasifikators
- Stohastiskā gradienta nolaišanās regresors
- Dažādas zaudējumu funkcijas SGD
Lēmumu koks:
- Lēmumu koka algoritmi
  - Iteratīvie dihotomisera 3 (ID3) algoritmi
  - C5. Algoritmi
  - Klasifikācijas un regresijas koku algoritmi
- Lēmumu koka klasifikators
- Lēmumu koka regresors
Ansambļa mācības:
- Iepakošana maisos (sāknēšanas datu apkopošana)
  - Nejaušais mežs
  - Papildu koki
- Paaugstināšana
  - AdaBoost
  - XGBoost
  - CatBoost
  - Gradientu paaugstināšanas mašīnas (GBM)
  - LightGBM
- Sakraušana
Ģeneratīvais modelis
- Naivai Beiji
  - Gausa naivais Bejs
  - Multinomiāls Naive Bayes
  - Bernulli Naive Bayes
- Gausa procesi
  - Gausa procesa regresija (GPR)
  - Gausa procesu klasifikācija (GPC)
- Gausa diskriminācijas analīze
  - Lineārā diskriminācijas analīze (LDA)
  - Kvadrātiskās diskriminācijas analīze (QDA)
- Bajesa ticības tīkli
- Slēptie Markova modeļi (HMM)
Laika rindas prognozēšana:
- Laika rindu vizualizācija un analīze:
  - Laika sērijas komponenti: tendence, sezonalitāte un troksnis
  - Laika rindu sadalīšanas metodes
  - Sezonas pielāgošana un atšķirības
  - Autokorelācija un daļējas autokorelācijas funkcijas
  - Papildināts Dikija-Fullera tests
  - Laika rindu sezonālā sadalīšana (STL sadalīšana)
  - Box-Jenkins metodoloģija ARIMA modeļiem
- Laika rindu prognozēšanas algoritmi:
  - Kustīgais vidējais (MA) un svērtais mainīgais vidējais
  - Eksponenciālās izlīdzināšanas metodes (vienkāršā, dubultā un trīskāršā)
  - Autoregresīvie (AR) modeļi
  - Kustīgā vidējā (MA) modeļi
  - Autoregresīvie integrētie mainīgā vidējā (ARIMA) modeļi
  - Loesa laika rindu sezonālā sadalīšana (STL)
  - Sezonālie autoregresīvie integrētie mainīgā vidējā (SARIMA) modeļi
  - ARIMAX un SARIMAX modeļi
Uzraudzīta dimensiju samazināšanas tehnika:
- Lineārā diskriminācijas analīze (LDA)

Dažus no uzraudzītajiem mašīnmācīšanās algoritmiem var izmantot gan klasifikācijai, gan regresijai ar nelielām izmaiņām

tu esi salaist

Vairāku klašu un vairāku izvades algoritmi:
- Daudzklases klasifikācija
  - OneVsRest klasifikators
- Vairāku etiķešu klasifikācija
- Vairāku izvadu regresija

Klasifikācijas un regresijas algoritmu metrika:

Regresijas metrika:
- Vidējā kvadrātā kļūda (MSE)
- Vidējā kvadrātiskā kļūda (RMSE)
- Vidējā absolūtā kļūda (MAE)
- R kvadrātā
- Pielāgots R kvadrātā
Klasifikācijas metrika:
- Apjukuma matrica
- Precizitāte
- Atsaukt
- Specifiskums
- F1 rezultāts
- Laukums zem ROC līknes (AUC-ROC)
Varbūtības kalibrēšana
- Kalibrēšanas līknes
- Klasifikatora kalibrēšana

Savstarpējās validācijas paņēmiens:

K-kārtīga savstarpēja validācija
Stratificēta k-Fold krusteniskā validācija
Atstājiet vienreizēju savstarpēju validāciju
Jauktā secībā sadalīta krusteniskā validācija
Laika rindas savstarpējā validācija

Optimizācijas tehnika:

Gradienta nolaišanās
- Stohastiskā gradienta nolaišanās
- Mini-partijas gradienta nolaišanās
- Uz impulsu balstīta gradienta nolaišanās
Ņūtona optimizācijas metodes
- Ņūtona algoritms
- Kvaziņūtona metodes (BFGS, L-BFGS)
- Konjugātais gradients
Vietējās meklēšanas optimizācijas metodes
- Kalnā kāpšana
- Tabu meklēšana

2. Nepārraudzīts mācību algoritms

Mācības bez uzraudzības ir mašīnmācīšanās algoritmu veids, kurā algoritmi tiek izmantoti, lai atrastu modeļus, struktūru vai attiecības datu kopā, izmantojot neiezīmētu datu kopu. Tā pēta datiem raksturīgo struktūru bez iepriekš definētām kategorijām vai etiķetēm.

Nepārraudzīti mašīnmācīšanās algoritmi
Klasterizācija Uz centru balstītas metodes K-Means klasterizācija K-Means++ klasterizācija K-Mode klasterizācija Izplūdušo C-Means (FCM) klasterizācija Uz izplatīšanu balstītas metodes Gausa maisījumu modeļi (GMM) Cerību maksimizēšanas algoritmi Dirihleta procesa maisījumu modeļi (DPMM) Uz savienojamību balstītas metodes Hierarhiskā klasterizācija Aglomeratīvā klasterizācija Sadalošā klasterizācija Afinitātes izplatīšanās Uz blīvumu balstītas metodes DBSCAN (uz blīvumu balstīta lietojumprogrammu telpiskā klasterizācija ar troksni) OPTIKA (punktu pasūtīšana, lai identificētu klasterizācijas struktūru) Asociācijas noteikumu ieguve Apriori algoritms FP izaugsme (bieži pieaugums) ECLAT (ekvivalences klases klasterizācija un augšupēja režģa šķērsošana) Anomāliju noteikšana: Z rezultāts Vietējais izņēmuma faktors (LOF) Izolācijas mežs Izmēru samazināšanas tehnika: Galvenās sastāvdaļas analīze (PCA) t-izplatītā stohastiskā kaimiņu iegulšana (t-SNE) Nenegatīva matricas faktorizācija (NMF) Neatkarīga komponentu analīze (ICA) Faktoru analīze Latentā Dirihleta piešķiršana (LDA) Isomap Lokāli lineāra iegulšana (LLE) Latentā semantiskā analīze (LSA)

Nepārraudzīti mašīnmācīšanās algoritmi

Klasterizācija
- Uz centru balstītas metodes
  - K-Means klasterizācija
  - K-Means++ klasterizācija
  - K-Mode klasterizācija
  - Izplūdušo C-Means (FCM) klasterizācija
- Uz izplatīšanu balstītas metodes
  - Gausa maisījumu modeļi (GMM)
  - Cerību maksimizēšanas algoritmi
  - Dirihleta procesa maisījumu modeļi (DPMM)
- Uz savienojamību balstītas metodes
  - Hierarhiskā klasterizācija
    - Aglomeratīvā klasterizācija
    - Sadalošā klasterizācija
  - Afinitātes izplatīšanās
- Uz blīvumu balstītas metodes
  - DBSCAN (uz blīvumu balstīta lietojumprogrammu telpiskā klasterizācija ar troksni)
  - OPTIKA (punktu pasūtīšana, lai identificētu klasterizācijas struktūru)
Asociācijas noteikumu ieguve
- Apriori algoritms
- FP izaugsme (bieži pieaugums)
- ECLAT (ekvivalences klases klasterizācija un augšupēja režģa šķērsošana)
Anomāliju noteikšana:
- Z rezultāts
- Vietējais izņēmuma faktors (LOF)
- Izolācijas mežs
Izmēru samazināšanas tehnika:
- Galvenās sastāvdaļas analīze (PCA)
- t-izplatītā stohastiskā kaimiņu iegulšana (t-SNE)
- Nenegatīva matricas faktorizācija (NMF)
- Neatkarīga komponentu analīze (ICA)
- Faktoru analīze
- Latentā Dirihleta piešķiršana (LDA)
- Isomap
- Lokāli lineāra iegulšana (LLE)
- Latentā semantiskā analīze (LSA)

3. Pastiprināšanas mācības

Pastiprināšanas mācības ir mašīnmācīšanās algoritmu veids, kurā aģents mācās pieņemt secīgus lēmumus, mijiedarbojoties ar apkārtējo vidi. Aģents saņem atgriezenisko saiti stimulu vai sodu veidā, pamatojoties uz viņa darbībām. Aģenta mērķis ir atklāt optimālu taktiku, kas laika gaitā maksimāli palielina kumulatīvo atlīdzību, izmantojot izmēģinājumus un kļūdas. Mācību pastiprināšana bieži tiek izmantota scenārijos, kuros aģentam jāiemācās orientēties vidē, spēlēt spēles, pārvaldīt robotus vai pieņemt lēmumus neskaidrās situācijās.

Pastiprināšanas mācības
Uz modeļiem balstītas metodes: Markova lēmumu procesi (MDP) Bellmana vienādojums Vērtību iterācijas algoritms Montekarlo koku meklēšana Metodes bez modeļa: Uz vērtībām balstītas metodes: Q-Learning MĒRCE Montekarlo metodes Uz politiku balstītas metodes: PASTIPRINĀŠANAS algoritms Aktiera-kritiķa algoritms Aktieru kritiķu metodes Asinhronās priekšrocības aktieris-kritiķis (A3C)

Pastiprināšanas mācības

Uz modeļiem balstītas metodes:
- Markova lēmumu procesi (MDP)
- Bellmana vienādojums
- Vērtību iterācijas algoritms
- Montekarlo koku meklēšana
Metodes bez modeļa:
- Uz vērtībām balstītas metodes:
  - Q-Learning
  - MĒRCE
  - Montekarlo metodes
- Uz politiku balstītas metodes:
  - PASTIPRINĀŠANAS algoritms
  - Aktiera-kritiķa algoritms
- Aktieru kritiķu metodes
  - Asinhronās priekšrocības aktieris-kritiķis (A3C)

Populāru mašīnmācīšanās algoritmu saraksts

Šeit ir saraksts ar 10 populārākajiem mašīnmācīšanās algoritmiem.

1. Lineārā regresija

Lineārā regresija ir vienkāršs algoritms, ko izmanto, lai kartētu lineārās attiecības starp ievades līdzekļiem un nepārtrauktu mērķa mainīgo. Tas darbojas, pielāgojot datiem līniju un pēc tam izmantojot līniju, lai prognozētu jaunas vērtības.

2. Loģistiskā regresija

Loģistiskā regresija ir lineārās regresijas paplašinājums, ko izmanto klasifikācijas uzdevumos, lai novērtētu iespējamību, ka gadījums pieder noteiktai klasei.

3. SVM (Support Vector Machine)

SVM ir uzraudzīti mācību algoritmi, kas var veikt klasifikācijas un regresijas uzdevumus. Tā atrod hiperplakni, kas vislabāk atdala klases iezīmju telpā.

4. KNN (K tuvākais kaimiņš)

KNN ir neparametrisks paņēmiens, ko var izmantot gan klasifikācijai, gan regresijai. Tas darbojas, identificējot k līdzīgākos datu punktus jaunam datu punktam un pēc tam paredzot jaunā datu punkta etiķeti, izmantojot šo datu punktu etiķetes.

5. Lēmumu koks

Lēmumu koki ir pārraudzītas mācīšanās tehnikas veids, ko var izmantot gan klasifikācijai, gan regresijai. Tas darbojas, segmentējot datus mazākās un mazākās grupās, līdz katru grupu var klasificēt vai prognozēt ar augstu precizitātes pakāpi.

6. Random Forest

Nejaušie meži ir ansambļa mācīšanās metodes veids, kas izmanto lēmumu pieņemšanas koku kopu, lai veiktu prognozes, apkopojot prognozes no atsevišķiem kokiem. Tas uzlabo viena lēmuma koku precizitāti un noturību. To var izmantot gan klasifikācijas, gan regresijas uzdevumiem.

7. Naivai Beiji

Naive Bayes ir varbūtības klasifikators, kura pamatā ir Beijesa teorēma, ko izmanto klasifikācijas uzdevumiem. Tas darbojas, pieņemot, ka datu punkta līdzekļi ir neatkarīgi viens no otra.

8. PCA (galveno komponentu analīze)

PCA ir izmēru samazināšanas paņēmiens, ko izmanto, lai pārveidotu datus zemākas dimensijas telpā, vienlaikus saglabājot pēc iespējas lielāku dispersiju. Tas darbojas, atrodot norādes datos, kas satur visvairāk variāciju, un pēc tam projicējot datus uz šiem virzieniem.

9. Apriori algoritmi

Apriori algoritms ir tradicionāls datu ieguves paņēmiens asociācijas noteikumu ieguvei darījumu datu bāzēs vai datu kopās. Tas ir paredzēts, lai atklātu saiknes un modeļus starp lietām, kas regulāri notiek darījumos. Apriori nosaka biežas vienumu kopas, kas ir vienumu grupas, kas parādās kopā darījumos ar noteiktu minimālo atbalsta līmeni.

java virknes vērtība

10. K-Means klasterizācija

K-Means klasterizācija ir neuzraudzīta mācīšanās pieeja, ko var izmantot datu punktu grupēšanai. Tas darbojas, datos atrodot k klasterus, lai datu punkti katrā klasterī būtu pēc iespējas līdzīgi viens otram, vienlaikus paliekot pēc iespējas atšķirīgi no datu punktiem citos klasteros.

Atklājiet pamatjēdzienus, kas virza mašīnmācīšanos, apgūstot 10 populārākie algoritmi , piemēram, lineārā regresija, lēmumu koki un neironu tīkli.

Mašīnmācīšanās algoritms — FAQ

1. Kas ir mašīnmācības algoritms?

Mašīnmācīšanās algoritmi ir metodes, kuru pamatā ir statistikas jēdzieni, kas ļauj datoriem mācīties no datiem, atklāt modeļus, veikt prognozes vai veikt uzdevumus bez īpašas programmēšanas. Šie algoritmi ir plaši iedalīti trīs veidos, t.i., uzraudzīta mācīšanās, neuzraudzīta mācīšanās un pastiprinoša mācīšanās.

2. Kādi ir mašīnmācīšanās veidi?

Ir galvenokārt trīs mašīnmācības veidi:

Uzraudzīts algoritms

Nepārraudzīts algoritms

Pastiprināšanas algoritms

3. Kurš ML algoritms ir vislabākais prognozēšanai?

Ideālo mašīnmācīšanās metodi prognozēšanai nosaka a kritēriju skaits , tostarp problēmas būtību, datu veidu un unikālās prasības. Atbalsta vektoru mašīnas, izlases meži un gradienta pastiprināšanas pieejas ir populāras prognozēšanas darba slodzei. No otras puses, algoritma izvēlei jābalstās uz konkrētās problēmas un datu kopas pārbaudi un novērtēšanu.

4. Kādi ir 10 populārie mašīnu mācīšanās algoritmi?

Zemāk ir saraksts ar 10 populārākajiem mašīnmācības (ML) algoritmiem:

Lineārā regresija

Loģistiskā regresija

SVM (atbalsta vektora mašīna)

KNN (K tuvākais kaimiņš)

Lēmumu koks

Nejaušais mežs

Naivai Beiji

PCA (galveno komponentu analīze)

Apriori algoritmi

K-Means klasterizācija