Mašīnmācība ir mākslīgā intelekta nozare, kas ļauj mašīnām veikt datu analīzi un prognozēt. Tomēr, ja mašīnmācīšanās modelis nav precīzs, tas var radīt prognožu kļūdas, un šīs prognozēšanas kļūdas parasti sauc par novirzi un novirzi. Mašīnmācībā šīs kļūdas vienmēr būs, jo vienmēr pastāv neliela atšķirība starp modeļa prognozēm un faktiskajām prognozēm. ML/datu zinātnes analītiķu galvenais mērķis ir samazināt šīs kļūdas, lai iegūtu precīzākus rezultātus. Šajā tēmā mēs apspriedīsim neobjektivitāti un dispersiju, neobjektivitātes un novirzes kompromisu, nepietiekamu piemērotību un pārmērīgu piemērotību. Bet pirms darba sākšanas vispirms sapratīsim, kas ir mašīnmācības kļūdas?
Kļūdas mašīnmācībā?
Mašīnmācībā kļūda ir mērs, cik precīzi algoritms var prognozēt iepriekš nezināmu datu kopu. Pamatojoties uz šīm kļūdām, tiek atlasīts mašīnmācīšanās modelis, kas var vislabāk darboties konkrētajā datu kopā. Mašīnmācībā galvenokārt ir divu veidu kļūdas, kas ir:
neatkarīgi no tā, kurš algoritms ir izmantots. Šo kļūdu cēlonis ir nezināmi mainīgie, kuru vērtību nevar samazināt.
Kas ir neobjektivitāte?
Parasti mašīnmācīšanās modelis analizē datus, atrod tajos modeļus un veic prognozes. Apmācības laikā modelis apgūst šos modeļus datu kopā un izmanto tos, lai pārbaudītu datus prognozēšanai. Veicot prognozes, rodas atšķirība starp modeļa prognozētajām vērtībām un faktiskajām vērtībām/paredzamajām vērtībām , un šī atšķirība ir zināma kā novirzes kļūdas vai novirzes dēļ radušās kļūdas . To var definēt kā mašīnmācīšanās algoritmu, piemēram, lineārās regresijas, nespēju uztvert patiesās attiecības starp datu punktiem. Katrs algoritms sākas ar zināmu novirzi, jo novirze rodas no pieņēmumiem modelī, kas atvieglo mērķa funkcijas apgūšanu. Modelim ir vai nu:
iekapsulēšanas programma
Parasti lineārajam algoritmam ir liela novirze, jo tas liek tiem ātri mācīties. Jo vienkāršāks ir algoritms, jo lielāka iespējamība, ka tas tiks ieviests. Tā kā nelineāram algoritmam bieži ir zema novirze.
Daži mašīnmācīšanās algoritmu piemēri ar zemu novirzi ir lēmumu koki, k-tuvākie kaimiņi un atbalsta vektora iekārtas . Tajā pašā laikā algoritms ar lielu novirzi ir Lineārā regresija, lineārā diskriminējošā analīze un loģistikas regresija.
Augstas novirzes samazināšanas veidi:
Liela novirze galvenokārt rodas daudz vienkārša modeļa dēļ. Tālāk ir norādīti daži veidi, kā samazināt lielo novirzi.
- Palieliniet ievades iespējas, jo modelis ir nepietiekami aprīkots.
- Samaziniet legalizācijas termiņu.
- Izmantojiet sarežģītākus modeļus, piemēram, iekļaujiet dažus polinoma līdzekļus.
Kas ir dispersijas kļūda?
Izkliede norādītu prognozes variācijas apjomu, ja tiktu izmantoti dažādi apmācības dati. Vienkāršiem vārdiem sakot, dispersija norāda, cik ļoti nejaušs mainīgais atšķiras no tā paredzamās vērtības. Ideālā gadījumā modelim nevajadzētu pārāk daudz atšķirties no vienas apmācības datu kopas uz citu, kas nozīmē, ka algoritmam vajadzētu labi izprast slēpto kartēšanu starp ieejas un izvades mainīgajiem. Variācijas kļūdas ir viena no zema vai liela dispersija.
stacks java
Zema dispersija nozīmē, ka ir nelielas atšķirības mērķa funkcijas prognozēšanā ar izmaiņām apmācības datu kopā. Tajā pašā laikā, Augsta dispersija parāda lielas atšķirības mērķa funkcijas prognozēšanā ar izmaiņām apmācības datu kopā.
Modelis, kas parāda lielu dispersiju, daudz mācās un labi darbojas ar apmācības datu kopu, un tas nav labi vispārināts ar neredzētu datu kopu. Rezultātā šāds modelis sniedz labus rezultātus ar apmācības datu kopu, bet parāda augstu kļūdu līmeni testa datu kopā.
Tā kā ar lielu dispersiju modelis pārāk daudz mācās no datu kopas, tas noved pie modeļa pārmērīgas pielāgošanas. Modelim ar lielu dispersiju ir šādas problēmas:
- Augstas dispersijas modelis noved pie pārmērības.
- Palieliniet modeļa sarežģītību.
Parasti nelineārajiem algoritmiem ir liela elastība, lai tie atbilstu modelim, tiem ir liela dispersija.
Daži mašīnmācīšanās algoritmu piemēri ar zemu dispersiju ir: Lineārā regresija, loģistikas regresija un lineārā diskriminējošā analīze . Tajā pašā laikā ir algoritmi ar lielu dispersiju lēmumu koks, atbalsta vektora mašīna un K-tuvākie kaimiņi.
Lielas atšķirības samazināšanas veidi:
- Samaziniet ievades funkcijas vai parametru skaitu, jo modelis ir pārāk pielāgots.
- Neizmantojiet ļoti sarežģītu modeli.
- Palieliniet apmācības datus.
- Palieliniet legalizācijas termiņu.
Dažādas novirzes-variances kombinācijas
Ir četras iespējamās novirzes un novirzes kombinācijas, kuras ir attēlotas zemāk esošajā diagrammā:
Zemas novirzes un zemas dispersijas kombinācija parāda ideālu mašīnmācīšanās modeli. Tomēr praktiski tas nav iespējams.
Ar lielu novirzi un lielu dispersiju prognozes ir nekonsekventas un arī vidēji neprecīzas.
Kā noteikt lielu dispersiju vai augstu novirzi?
Lielu dispersiju var noteikt, ja modelim ir:
- Zema treniņu kļūda un liela testa kļūda.
Lielu novirzi var noteikt, ja modelim ir:
bourne-ain apvalks
- Liela apmācības kļūda un testa kļūda ir gandrīz līdzīga apmācības kļūdai.
Neobjektivitātes-variances kompromiss
Veidojot mašīnmācīšanās modeli, ir patiešām svarīgi parūpēties par novirzēm un dispersiju, lai izvairītos no modeļa pārmērīgas un nepietiekamas pielāgošanas. Ja modelis ir ļoti vienkāršs ar mazāk parametru, tam var būt zema dispersija un liela novirze. Savukārt, ja modelim ir liels parametru skaits, tam būs liela dispersija un zema novirze. Tātad ir nepieciešams izveidot līdzsvaru starp novirzes un dispersijas kļūdām, un šis līdzsvars starp novirzes kļūdu un dispersijas kļūdu ir pazīstams kā neobjektivitātes-variances kompromiss.
Lai precīzi prognozētu modeli, algoritmiem ir nepieciešama zema dispersija un zema novirze. Bet tas nav iespējams, jo neobjektivitāte un dispersija ir savstarpēji saistītas:
- Ja mēs samazinām dispersiju, tas palielinās novirzi.
- Ja mēs samazinām novirzi, tas palielinās dispersiju.
Neobjektivitātes un novirzes kompromiss ir galvenais jautājums uzraudzītajā apmācībā. Ideālā gadījumā mums ir nepieciešams modelis, kas precīzi atspoguļo apmācības datu likumsakarības un vienlaikus labi vispārina ar neredzētu datu kopu. Diemžēl tas nav iespējams vienlaikus. Tā kā augstas dispersijas algoritms var labi darboties ar apmācības datiem, taču tas var izraisīt trokšņainu datu pārspīlēšanu. Turpretī augstas novirzes algoritms ģenerē daudz vienkāršu modeli, kas var pat neuztvert svarīgas datu likumsakarības. Tātad, lai izveidotu optimālu modeli, mums ir jāatrod vieta starp neobjektivitāti un dispersiju.
Līdz ar to, Neobjektivitātes un novirzes kompromiss ir par izdevīgākās vietas atrašanu, lai panāktu līdzsvaru starp novirzēm un dispersijas kļūdām.