logo

Lineārā regresija mašīnmācībā

Mašīnmācība ir mākslīgā intelekta nozare, kas koncentrējas uz tādu algoritmu un statistikas modeļu izstrādi, kas var mācīties no datiem un veikt prognozes par tiem. Lineārā regresija ir arī mašīnmācības algoritma veids, konkrētāk a uzraudzīts mašīnmācīšanās algoritms kas mācās no marķētajām datu kopām un kartē datu punktus uz visvairāk optimizētajām lineārajām funkcijām. ko var izmantot jaunu datu kopu prognozēšanai.

Vispirms mums vajadzētu zināt, kas ir uzraudzītie mašīnmācīšanās algoritmi. Tas ir mašīnmācīšanās veids, kurā algoritms mācās no marķētiem datiem. Apzīmētie dati ir datu kopa, kuras attiecīgā mērķa vērtība jau ir zināma. Uzraudzītai apmācībai ir divi veidi:

  • Klasifikācija : tā paredz datu kopas klasi, pamatojoties uz neatkarīgo ievades mainīgo. Klase ir kategoriskas vai diskrētas vērtības. kā dzīvnieka tēls ir kaķis vai suns?
  • Regresija : Tas prognozē nepārtrauktos izvades mainīgos, pamatojoties uz neatkarīgo ievades mainīgo. piemēram, mājokļu cenu prognozēšana, pamatojoties uz dažādiem parametriem, piemēram, mājas vecumu, attālumu no galvenā ceļa, atrašanās vietu, teritoriju utt.

Šeit mēs apspriedīsim vienu no vienkāršākajiem regresijas veidiem, t.i. Lineārā regresija.



Satura rādītājs

Kas ir lineārā regresija?

Lineārā regresija ir veids uzraudzīta mašīnmācība algoritms, kas aprēķina lineāro sakarību starp atkarīgo mainīgo un vienu vai vairākām neatkarīgām pazīmēm, pielāgojot novērotajiem datiem lineāru vienādojumu.

Ja ir tikai viena neatkarīga iezīme, to sauc par Vienkārša lineārā regresija , un, ja ir vairāk nekā viena funkcija, to sauc par Daudzkārtēja lineārā regresija .

Līdzīgi, ja ir tikai viens atkarīgais mainīgais, tas tiek ņemts vērā Viendimensiju lineārā regresija , savukārt, ja ir vairāk nekā viens atkarīgais mainīgais, to sauc par Daudzfaktoru regresija .

Java apakšvirknes piemērs

Kāpēc lineārā regresija ir svarīga?

Lineārās regresijas interpretējamība ir ievērojama priekšrocība. Modeļa vienādojums nodrošina skaidrus koeficientus, kas izskaidro katra neatkarīgā mainīgā ietekmi uz atkarīgo mainīgo, veicinot dziļāku izpratni par pamatā esošo dinamiku. Tā vienkāršība ir priekšrocība, jo lineārā regresija ir caurspīdīga, viegli īstenojama un kalpo kā pamatkoncepcija sarežģītākiem algoritmiem.

Lineārā regresija nav tikai prognozēšanas rīks; tas veido pamatu dažādiem uzlabotiem modeļiem. Tādas metodes kā regularizācija un atbalsta vektoru mašīnas smeļas iedvesmu no lineārās regresijas, paplašinot tās lietderību. Turklāt lineārā regresija ir stūrakmens pieņēmumu pārbaudē, ļaujot pētniekiem apstiprināt galvenos pieņēmumus par datiem.

Lineārās regresijas veidi

Ir divi galvenie lineārās regresijas veidi:

Vienkārša lineārā regresija

Šī ir vienkāršākā lineārās regresijas forma, un tā ietver tikai vienu neatkarīgu mainīgo un vienu atkarīgo mainīgo. Vienkāršas lineārās regresijas vienādojums ir:
y=eta_{0}+eta_{1}X
kur:

  • Y ir atkarīgais mainīgais
  • X ir neatkarīgais mainīgais
  • β0 ir krustpunkts
  • β1 ir slīpums

Daudzkārtēja lineārā regresija

Tas ietver vairāk nekā vienu neatkarīgu mainīgo un vienu atkarīgo mainīgo. Vairākkārtējas lineārās regresijas vienādojums ir:
y=eta_{0}+eta_{1}X+eta_{2}X+………eta_{n}X
kur:

  • Y ir atkarīgais mainīgais
  • X1, X2, …, Xp ir neatkarīgi mainīgie
  • β0 ir krustpunkts
  • β1, β2, …, βn ir slīpumi

Algoritma mērķis ir atrast labākā Fit Line vienādojums, kas var paredzēt vērtības, pamatojoties uz neatkarīgiem mainīgajiem.

Regresijā ierakstu kopa ir ar X un Y vērtībām, un šīs vērtības tiek izmantotas, lai iemācītos funkciju, tādēļ, ja vēlaties paredzēt Y no nezināma X, var izmantot šo apgūto funkciju. Regresijā jāatrod Y vērtība, Tātad ir nepieciešama funkcija, kas paredz nepārtrauktu Y regresijas gadījumā, ja X kā neatkarīgas pazīmes.

Kāda ir labākā Fit Line?

Mūsu galvenais mērķis, izmantojot lineāro regresiju, ir atrast vispiemērotāko līniju, kas nozīmē, ka kļūda starp prognozētajām un faktiskajām vērtībām ir jāsamazina līdz minimumam. Vismazāk kļūdu būs vislabāk atbilstošā līnijā.

Labākais Fit Line vienādojums nodrošina taisnu līniju, kas atspoguļo attiecības starp atkarīgo un neatkarīgo mainīgo. Līnijas slīpums norāda, cik lielā mērā atkarīgais mainīgais mainās atkarībā no vienības izmaiņām neatkarīgajā mainīgajā(-os).

Lineārā regresija mašīnmācībā

Lineārā regresija


Šeit Y tiek saukts par atkarīgo vai mērķa mainīgo, un X tiek saukts par neatkarīgu mainīgo, kas pazīstams arī kā Y prognozētājs. Ir daudz dažādu funkciju vai moduļu, ko var izmantot regresijai. Lineāra funkcija ir vienkāršākais funkcijas veids. Šeit X var būt viens līdzeklis vai vairāki līdzekļi, kas atspoguļo problēmu.

Lineārā regresija veic uzdevumu, lai prognozētu atkarīgā mainīgā vērtību (y), pamatojoties uz doto neatkarīgo mainīgo (x)). Tādējādi nosaukums ir Lineārā regresija. Augšējā attēlā X (ievade) ir darba pieredze un Y (izeja) ir personas alga. Regresijas līnija ir mūsu modelim vispiemērotākā līnija.

Mēs izmantojam izmaksu funkciju, lai aprēķinātu labākās vērtības, lai iegūtu vislabāko atbilstības līniju, jo dažādas svaru vērtības vai līniju koeficients rada dažādas regresijas līnijas.

Hipotēzes funkcija lineārajā regresijā

Kā jau iepriekš pieņēmām, ka mūsu neatkarīgā iezīme ir pieredze, ti, X, un attiecīgā alga Y ir atkarīgais mainīgais. Pieņemsim, ka starp X un Y pastāv lineāra sakarība, tad algu var prognozēt, izmantojot:

hat{Y} = heta_1 + heta_2X

VAI

hat{y}_i = heta_1 + heta_2x_i

Šeit,

  • y_i epsilon Y ;; (i= 1,2, cdots , n) ir datu etiķetes (uzraudzīta apmācība)
  • x_i epsilon X ;; (i= 1,2, cdots , n) ir ievades neatkarīgi apmācības dati (viendimensionāls — viens ievades mainīgais (parametrs))
  • hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) ir paredzamās vērtības.

Modelis iegūst labāko regresijas atbilstības līniju, atrodot labāko θ1un θ2vērtības.

  • i 1 : pārtvert
  • i 2 : koeficients x

Kad esam atraduši labāko θ1un θ2vērtības, mēs iegūstam vispiemērotāko līniju. Tātad, kad mēs beidzot izmantosim savu modeli prognozēšanai, tas prognozēs y vērtību x ievades vērtībai.

Kā atjaunināt θ 1 un θ 2 vērtības, lai iegūtu vispiemērotāko līniju?

Lai sasniegtu vispiemērotāko regresijas līniju, modeļa mērķis ir paredzēt mērķa vērtībuhat{Y} tā, lai kļūdas starpība starp prognozēto vērtībuhat{Y} un patiesā vērtība Y ir minimāla. Tāpēc ir ļoti svarīgi atjaunināt θ1un θ2vērtības, lai sasniegtu labāko vērtību, kas samazina kļūdu starp prognozēto y vērtību (pred) un patieso y vērtību (y).

minimizefrac{1}{n}sum_{i=1}^{n}(hat{y_i}-y_i)^2

Lineārās regresijas izmaksu funkcija

The izmaksu funkcija vai zaudēšanas funkcija ir nekas cits kā kļūda vai atšķirība starp prognozēto vērtībuhat{Y} un patiesā vērtība Y.

Lineārajā regresijā, Vidējā kvadrāta kļūda (MSE) tiek izmantota izmaksu funkcija, kas aprēķina vidējo kļūdu kvadrātā starp prognozētajām vērtībāmhat{y}_i un faktiskās vērtības{y}_i . Mērķis ir noteikt pārtveršanas optimālās vērtības heta_1 un ievades pazīmes koeficients heta_2 nodrošinot vislabāko līniju dotajiem datu punktiem. Lineārais vienādojums, kas izsaka šīs attiecības, irhat{y}_i = heta_1 + heta_2x_i .

Linux marka

MSE funkciju var aprēķināt šādi:

ext{Cost function}(J) = frac{1}{n}sum_{n}^{i}(hat{y_i}-y_i)^2

Izmantojot funkciju MSE, tiek izmantots iteratīvais gradienta nolaišanās process, lai atjauninātu vērtības. heta_1 & heta_2 . Tas nodrošina, ka MSE vērtība konverģē uz globālajiem minimumiem, kas nozīmē visprecīzāko lineārās regresijas līnijas atbilstību datu kopai.

Šis process ietver nepārtrauktu parametru ( heta_1) un ( heta_2) pielāgošanu, pamatojoties uz gradientiem, kas aprēķināti no MSE. Gala rezultāts ir lineāra regresijas līnija, kas samazina kopējās kvadrātiskās atšķirības starp prognozētajām un faktiskajām vērtībām, nodrošinot optimālu pamatā esošās attiecības attēlojumu datos.

Gradienta nolaišanās lineārajai regresijai

Lineārās regresijas modeli var apmācīt, izmantojot optimizācijas algoritmu gradienta nolaišanās iteratīvi modificējot modeļa parametrus, lai samazinātu vidējā kvadrātiskā kļūda (MSE) modeļa apmācības datu kopā. Lai atjauninātu θ1un θ2vērtības, lai samazinātu izmaksu funkciju (minimizētu RMSE vērtību) un sasniegtu vislabāko atbilstību modelim, izmantojot Gradient Descent. Ideja ir sākt ar nejaušu θ1un θ2vērtības un pēc tam iteratīvi atjauniniet vērtības, sasniedzot minimālās izmaksas.

Gradients nav nekas cits kā atvasinājums, kas definē ietekmi uz funkcijas izvadiem, nedaudz mainot ievades.

Atšķirsim izmaksu funkciju (J) attiecībā uz heta_1

egin {aligned} {J}’_{ heta_1} &=frac{partial J( heta_1, heta_2)}{partial heta_1} &= frac{partial}{partial heta_1} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(1+0-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2 ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) end {aligned}

Atšķirsim izmaksu funkciju (J) attiecībā uz heta_2

egin {aligned} {J}’_{ heta_2} &=frac{partial J( heta_1, heta_2)}{partial heta_2} &= frac{partial}{partial heta_2} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(0+x_i-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2x_i ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i end {aligned}

Lineārās regresijas mērķis ir atrast tādu lineārā vienādojuma koeficientus, kas vislabāk atbilst apmācības datiem. Pārvietojoties Mean Squared Error negatīvā gradienta virzienā attiecībā pret koeficientiem, koeficientus var mainīt. Un attiecīgais nogrieznis un X koeficients būs, jaalpha ir mācīšanās ātrums.

Gradienta nolaišanās

egin{aligned} heta_1 &= heta_1 – alpha left( {J}’_{ heta_1} ight) &= heta_1 -alpha left( frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) ight) end{aligned} egin{aligned} heta_2 &= heta_2 – alpha left({J}’_{ heta_2} ight) &= heta_2 – alpha left(frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i ight) end{aligned}

Vienkāršās lineārās regresijas pieņēmumi

Lineārā regresija ir spēcīgs instruments, lai izprastu un prognozētu mainīgā uzvedību, tomēr tai ir jāatbilst dažiem nosacījumiem, lai tie būtu precīzi un uzticami risinājumi.

  1. Linearitāte : neatkarīgajiem un atkarīgajiem mainīgajiem ir lineāra saistība vienam ar otru. Tas nozīmē, ka izmaiņas atkarīgajā mainīgajā lineārā veidā seko neatkarīgā(-o) mainīgā(-u) izmaiņām. Tas nozīmē, ka ir jābūt taisnai līnijai, ko var novilkt caur datu punktiem. Ja sakarība nav lineāra, tad lineārā regresija nebūs precīzs modelis.
  2. Neatkarība : novērojumi datu kopā ir neatkarīgi viens no otra. Tas nozīmē, ka viena novērojuma atkarīgā mainīgā vērtība nav atkarīga no cita novērojuma atkarīgā mainīgā vērtības. Ja novērojumi nav neatkarīgi, tad lineārā regresija nebūs precīzs modelis.
  3. Homoskedastiskums : visos neatkarīgā(-o) mainīgā(-u) līmeņos kļūdu dispersija ir nemainīga. Tas norāda, ka neatkarīgā(-o) mainīgā(-u) lielums neietekmē kļūdu dispersiju. Ja atlikumu dispersija nav nemainīga, tad lineārā regresija nebūs precīzs modelis.

    Homoscedasticitāte lineārajā regresijā

  4. Normalitāte : Atlikumiem jābūt normāli sadalītiem. Tas nozīmē, ka atlikumiem vajadzētu sekot zvanveida līknei. Ja atlikumi nav normāli sadalīti, lineārā regresija nebūs precīzs modelis.

Daudzkārtējas lineārās regresijas pieņēmumi

Vairāku lineāro regresiju izmanto visi četri vienkāršās lineārās regresijas pieņēmumi. Papildus tam zemāk ir vēl daži:

alfabēts pēc cipariem
  1. Nav daudzkolinearitātes : starp neatkarīgiem mainīgajiem nav augstas korelācijas. Tas norāda, ka starp neatkarīgiem mainīgajiem ir neliela korelācija vai tās nav vispār. Daudzkolinearitāte rodas, ja divi vai vairāki neatkarīgi mainīgie ir ļoti savstarpēji saistīti, kas var apgrūtināt katra mainīgā individuālās ietekmes noteikšanu uz atkarīgo mainīgo. Ja ir multikolinearitāte, tad vairākkārtēja lineārā regresija nebūs precīzs modelis.
  2. Pievienotība: Modelis pieņem, ka prognozējamā mainīgā izmaiņu ietekme uz atbildes mainīgo ir konsekventa neatkarīgi no pārējo mainīgo vērtībām. Šis pieņēmums nozīmē, ka starp mainīgajiem nav mijiedarbības to ietekmē uz atkarīgo mainīgo.
  3. Funkciju izvēle: Vairākkārtējai lineārai regresijai ir svarīgi rūpīgi atlasīt neatkarīgos mainīgos, kas tiks iekļauti modelī. Neatbilstošu vai lieku mainīgo lielumu iekļaušana var izraisīt modeļa pārmērību un sarežģīt modeļa interpretāciju.
  4. Pārmērīga uzstādīšana: Pārmērīga pielāgošana notiek, ja modelis pārāk cieši pielāgo apmācības datus, tverot troksni vai nejaušas svārstības, kas neatspoguļo patiesās pamatā esošās attiecības starp mainīgajiem. Tas var novest pie sliktas vispārināšanas veiktspējas jauniem, neredzētiem datiem.

Daudzkolinearitāte

Daudzkolinearitāte ir statistiska parādība, kas rodas, ja divi vai vairāki neatkarīgi mainīgie daudzkārtējas regresijas modelī ir ļoti korelēti, tādēļ ir grūti novērtēt katra mainīgā individuālo ietekmi uz atkarīgo mainīgo.

Daudzkolinearitātes noteikšana ietver divus paņēmienus:

  • Korelācijas matrica: Neatkarīgo mainīgo korelācijas matricas pārbaude ir izplatīts veids, kā noteikt multikolinearitāti. Augstas korelācijas (tuvu 1 vai -1) norāda uz iespējamu multikolinearitāti.
  • VIF (variances inflācijas koeficients): VIF ir mērs, kas kvantitatīvi nosaka, cik lielā mērā palielinās aprēķinātā regresijas koeficienta dispersija, ja jūsu prognozētāji ir korelēti. Augsts VIF (parasti virs 10) liecina par daudzkolinearitāti.

Lineārās regresijas novērtēšanas metrika

Dažādas novērtēšanas pasākumi var izmantot, lai noteiktu jebkura lineārās regresijas modeļa stiprumu. Šie novērtējuma rādītāji bieži norāda uz to, cik labi modelis rada novērotos rezultātus.

Visizplatītākie mērījumi ir:

Vidējā kvadrāta kļūda (MSE)

Vidējā kvadrāta kļūda (MSE) ir novērtējuma metrika, kas aprēķina vidējo atšķirību kvadrātā starp faktiskajām un prognozētajām vērtībām visiem datu punktiem. Atšķirība ir kvadrātā, lai nodrošinātu, ka negatīvās un pozitīvās atšķirības viena otru neizslēdz.

MSE = frac{1}{n}sum_{i=1}^{n}left ( y_i – widehat{y_{i}} ight )^2

Šeit,

  • n ir datu punktu skaits.
  • uniir faktiskā vai novērotā vērtība ithdatu punkts.
  • widehat{y_{i}} ir paredzamā vērtība ithdatu punkts.

MSE ir veids, kā kvantitatīvi noteikt modeļa prognožu precizitāti. MSE ir jutīga pret novirzēm, jo ​​lielas kļūdas būtiski ietekmē kopējo rezultātu.

Vidējā absolūtā kļūda (MAE)

Vidējā absolūtā kļūda ir novērtējuma metrika, ko izmanto, lai aprēķinātu regresijas modeļa precizitāti. MAE mēra vidējo absolūto starpību starp prognozētajām vērtībām un faktiskajām vērtībām.

Matemātiski MAE izsaka šādi:

MAE =frac{1}{n} sum_{i=1}^{n}|Y_i – widehat{Y_i}|

Šeit,

  • n ir novērojumu skaits
  • UNiatspoguļo faktiskās vērtības.
  • widehat{Y_i} apzīmē prognozētās vērtības

Zemāka MAE vērtība norāda uz labāku modeļa veiktspēju. Tas nav jutīgs pret novirzēm, jo ​​mēs uzskatām absolūtas atšķirības.

Root Mean Squared Error (RMSE)

Atlikuma dispersijas kvadrātsakne ir Saknes vidējā kvadrāta kļūda . Tas apraksta, cik labi novērotie datu punkti sakrīt ar paredzamajām vērtībām vai modeļa absolūto atbilstību datiem.


Matemātiskajā apzīmējumā to var izteikt šādi:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{n}
Tā vietā, lai dalītu visu modeļa datu punktu skaitu ar brīvības pakāpju skaitu, ir jāsadala atlikuma summa kvadrātā, lai iegūtu objektīvu novērtējumu. Tad šis skaitlis tiek saukts par atlikušo standarta kļūdu (RSE).

Matemātiskajā apzīmējumā to var izteikt šādi:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{(n-2)}

RSME nav tik labs rādītājs kā R kvadrāts. Root Mean Squared Error var svārstīties, ja mainīgo lielumu vienības mainās, jo tās vērtība ir atkarīga no mainīgo vienībām (tas nav normalizēts rādītājs).

Determinācijas koeficients (R kvadrātā)

R kvadrāts ir statistika, kas norāda, cik lielu variāciju izstrādātais modelis var izskaidrot vai uztvert. Tas vienmēr ir diapazonā no 0 līdz 1. Kopumā, jo labāk modelis sakrīt ar datiem, jo ​​lielāks ir R kvadrāta skaitlis.
Matemātiskajā apzīmējumā to var izteikt šādi:
R^{2}=1-(^{frac{RSS}{TSS}})

  • Kvadrātu atlikusī summa (RSS): atlikuma kvadrātu summa katram datu punktam diagrammā vai datos ir zināma kā kvadrātu atlikuma summa jeb RSS. Tas ir atšķirības starp novēroto un paredzēto rezultātu mērījums.
    RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}
  • Kopējā kvadrātu summa (TSS): Datu punktu kļūdu summa no atbildes mainīgā vidējā lieluma ir zināma kā kvadrātu kopējā summa jeb TSS.
    TSS= sum_{}^{}(y-overline{y_{i}})^2

R kvadrātveida metrika ir atkarīgā mainīgā dispersijas proporcijas mērs, kas modelī ir izskaidrots neatkarīgiem mainīgajiem.

Pielāgota R kvadrāta kļūda

Pielāgots R2mēra dispersijas proporciju atkarīgajā mainīgajā, ko regresijas modelī izskaidro neatkarīgi mainīgie. Pielāgots R kvadrāts ņem vērā prognozētāju skaitu modelī un soda modeli par neatbilstošu prognozētāju iekļaušanu, kas būtiski nepalīdz izskaidrot atkarīgo mainīgo dispersiju.

tīģera lauvas atšķirība

Matemātiski koriģēts R2ir izteikts šādi:

Adjusted , R^2 = 1 – (frac{(1-R^2).(n-1)}{n-k-1})

Šeit,

  • n ir novērojumu skaits
  • k ir prognozētāju skaits modelī
  • R2ir apņēmības koeficients

Pielāgotais R-kvadrāts palīdz novērst pārmērīgu pielāgošanu. Tas soda modeli ar papildu prognozētājiem, kas būtiski neveicina atkarīgā mainīgā dispersijas izskaidrošanu.

Python Lineārās regresijas ieviešana

Importējiet nepieciešamās bibliotēkas:

Python3 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation>

Ielādējiet datu kopu un atdaliet ievades un mērķa mainīgos

Šeit ir saite uz datu kopu: Datu kopas saite

Python3 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)>

Izveidojiet lineārās regresijas modeli un uzzīmējiet regresijas līniju

Darbības:

  • Izplatīšanā uz priekšu Lineārās regresijas funkcija Y=mx+c tiek izmantota, sākotnēji piešķirot parametra nejaušo vērtību (m & c).
  • Mēs esam uzrakstījuši funkciju, lai atrastu izmaksu funkciju, t.i., vidējo
Python3Python3 #Lietošanas piemērs lineārais_reg = LinearRegression() parametri, zudums = lineārs_reg.vilciens(vilciena_ieeja, vilciena_izvade, 0,0001, 20) Izvade : iterācija = 1, zudumi = 9130,407560462196 iterācija = 911,9 Iterācija = 9 8 darbība = 1, zaudējumi = 140,31580932842422 Iterācija = 1, zaudējumi = 23,795780526084116 iterācija = 2, zaudējumi = 9,753848205147605 iterācija = 3, zaudējumi = 8,061641745006835 iterācija = 4, zaudējumi = 7,8 67 = 79116 70 8331350515579015 Iterācija = 6, zaudējumi = 7,830172502503967 Iterācija = 7, zaudējumi = 7,829814681591015 Iterācija = 8 , zaudējumi = 7,829770758846183 iterācija = 9, zaudējumi = 7,829764664327399 iterācija = 10, zaudējumi = 7,829763128602258 iterācija = 11, zaudējumi = 7,82 7 = 7,212 8 = 2,8. 829761222379141 iterācija = 13, zaudējumi = 7,829760310486438 iterācija = 14, zaudējumi = 7,829759399646989 iterācija = 15, Zaudējumi = 7,829758489015161 iterācija = 16, zaudējumi = 7,829757578489033 iterācija = 17, zaudējumi = 7,829756668056319 iterācija = 18, zaudējumi = 7,827 = 551,7 = 5 1,8 7 29754847466484 Iterācija = 20, zudumi = 7,829753937309139 Lineārā regresijas līnija Lineārās regresijas līnija sniedz vērtīgu ieskatu attiecībās starp diviem mainīgajiem. Tā ir vispiemērotākā līnija, kas atspoguļo vispārējo tendenci, kā atkarīgais mainīgais (Y) mainās, reaģējot uz neatkarīga mainīgā (X) izmaiņām. Pozitīva lineāra regresijas līnija: pozitīva lineāra regresijas līnija norāda uz tiešu saistību starp neatkarīgo mainīgo (X) un atkarīgo mainīgo (Y). Tas nozīmē, ka, palielinoties X vērtībai, palielinās arī Y vērtība. Pozitīvas lineārās regresijas līnijas slīpums ir pozitīvs, kas nozīmē, ka līnija ir slīpi uz augšu no kreisās puses uz labo. Negatīvā lineārā regresijas līnija: negatīva lineāra regresijas līnija norāda uz apgrieztu saistību starp neatkarīgo mainīgo (X) un atkarīgo mainīgo (Y). Tas nozīmē, ka, palielinoties X vērtībai, Y vērtība samazinās. Negatīvās lineārās regresijas līnijas slīpums ir negatīvs, kas nozīmē, ka līnija ir slīpi uz leju no kreisās puses uz labo.Lineāro modeļu regulēšanas paņēmieni Laso regresija (L1 Regularizācija) Laso regresija ir paņēmiens, ko izmanto lineārās regresijas modeļa regularizēšanai, tā pievieno sodu. termins lineārās regresijas mērķa funkcijai, lai novērstu pārmērīgu pielāgošanu. Mērķa funkcija pēc laso regresijas piemērošanas ir: pirmais termins ir mazāko kvadrātu zudums, kas atspoguļo starpību starp prognozētajām un faktiskajām vērtībām kvadrātā. otrs termins ir L1 regularizācijas termins, ar to tiek sodīta regresijas koeficienta θj absolūto vērtību summa. Ridge regresija (L2 regularizācija) Ridge regresija ir lineārās regresijas paņēmiens, kas standarta lineārajam mērķim pievieno regularizācijas terminu. Atkal mērķis ir novērst pārmērību, sodot lielu koeficientu lineārās regresijas vienādojumā. Tas ir noderīgi, ja datu kopai ir daudzkolinearitāte, kur prognozēšanas mainīgie ir ļoti korelēti. Mērķa funkcija pēc kores regresijas piemērošanas ir: pirmais loceklis ir mazāko kvadrātu zudums, kas atspoguļo starpību starp prognozētajām un faktiskajām vērtībām kvadrātā. otrais termins ir L1 regularizācijas termins, ar to tiek sodīta regresijas koeficienta θj vērtību kvadrāta summa. Elastīgā neto regresija Elastīgā neto regresija ir hibrīda regularizācijas tehnika, kas apvieno gan L1, gan L2 regularizācijas spēku lineārās regresijas mērķī. pirmais termins ir mazākais kvadrāts. otrais termins ir L1 regularizācija un trešais ir kores regresija.???? ir vispārējā regularizācijas stiprums. α kontrolē sajaukumu starp L1 un L2 regularizāciju. Lineārās regresijas pielietojumi Lineāro regresiju izmanto daudzās dažādās jomās, tostarp finansēs, ekonomikā un psiholoģijā, lai izprastu un prognozētu konkrēta mainīgā uzvedību. Piemēram, finansēs lineāro regresiju var izmantot, lai izprastu saistību starp uzņēmuma akciju cenu un tā ienākumiem vai prognozētu valūtas nākotnes vērtību, pamatojoties uz tās iepriekšējo darbību. Lineārās regresijas priekšrocības un trūkumi Lineārās regresijas priekšrocībasLineārā regresija ir salīdzinoši vienkāršs algoritms, kas padara to viegli saprotamu un īstenojamu. Lineārās regresijas modeļa koeficientus var interpretēt kā atkarīgā mainīgā izmaiņas vienas vienības izmaiņām neatkarīgajā mainīgajā, sniedzot ieskatu attiecībās starp mainīgajiem. Lineārā regresija ir skaitļošanas ziņā efektīva un var efektīvi apstrādāt lielas datu kopas. To var ātri apmācīt lielās datu kopās, padarot to piemērotu reāllaika lietojumprogrammām. Lineārā regresija ir salīdzinoši stabila pret novirzēm, salīdzinot ar citiem mašīnmācīšanās algoritmiem. Ārkārtas var mazāk ietekmēt modeļa kopējo veiktspēju.Lineārā regresija bieži kalpo kā labs bāzes modelis, lai salīdzinātu ar sarežģītākiem mašīnmācīšanās algoritmiem.Lineārā regresija ir labi izveidots algoritms ar bagātīgu vēsturi un ir plaši pieejams dažādās mašīnmācīšanās jomās. bibliotēkas un programmatūras pakotnes.Lineārās regresijas trūkumi Lineārā regresija pieņem lineāru attiecību starp atkarīgo un neatkarīgo mainīgo. Ja sakarība nav lineāra, modelis var nedarboties labi.Lineārā regresija ir jutīga pret multikolinearitāti, kas rodas, ja pastāv augsta korelācija starp neatkarīgiem mainīgajiem. Multikolinearitāte var palielināt koeficientu dispersiju un novest pie nestabilām modeļa prognozēm. Lineārā regresija pieņem, ka pazīmes jau ir modelim piemērotā formā. Var būt nepieciešama funkciju izstrāde, lai objektus pārveidotu formātā, ko var efektīvi izmantot modelī. Lineārā regresija ir pakļauta gan pārmērīgai, gan nepietiekamai pielāgošanai. Pārmērīga pielāgošana notiek, kad modelis pārāk labi apgūst apmācības datus un nespēj vispārināt līdz neredzamiem datiem. Nepietiekama atbilstība rodas, ja modelis ir pārāk vienkāršs, lai tvertu pamatā esošās attiecības datos. Lineārā regresija nodrošina ierobežotu skaidrojošo spēku sarežģītām attiecībām starp mainīgajiem. Lai iegūtu dziļāku ieskatu, var būt nepieciešamas uzlabotas mašīnmācīšanās metodes. SecinājumsLineārā regresija ir būtisks mašīnmācīšanās algoritms, kas ir plaši izmantots daudzus gadus tā vienkāršības, interpretējamības un efektivitātes dēļ. Tas ir vērtīgs rīks, lai izprastu attiecības starp mainīgajiem un veiktu prognozes dažādās lietojumprogrammās. Tomēr ir svarīgi apzināties tā ierobežojumus, piemēram, pieņēmumu par linearitāti un jutīgumu pret multikolinearitāti. Ja šie ierobežojumi tiek rūpīgi apsvērti, lineārā regresija var būt spēcīgs datu analīzes un prognozēšanas instruments. Lineārā regresija — bieži uzdotie jautājumi (Bieži uzdotie jautājumi) Ko lineārā regresija nozīmē vienkārši? Lineārā regresija ir uzraudzīts mašīnmācīšanās algoritms, kas paredz nepārtrauktu mērķa mainīgo, pamatojoties uz vienu vai vairākiem neatkarīgiem mainīgajiem. Tas pieņem lineāru saistību starp atkarīgo un neatkarīgo mainīgo un izmanto lineāru vienādojumu, lai modelētu šīs attiecības. Kāpēc mēs izmantojam lineāro regresiju? Lineāro regresiju parasti izmanto: skaitlisko vērtību prognozēšanai, pamatojoties uz ievades pazīmēm; nākotnes tendenču prognozēšanai, pamatojoties uz vēsturiskiem datiem; mainīgo korelāciju identificēšanai; dažādu faktoru ietekmes uz konkrētu iznākumu izpratni; kā lineāro regresiju. , izprotot koeficientus un veicot prognozes, pamatojoties uz ievades vērtībām apzinātu lēmumu pieņemšanai. Kāpēc to sauc par lineāro regresiju? Lineārā regresija ir nosaukta par to, ka tā izmanto lineāro vienādojumu, lai modelētu attiecības starp mainīgajiem, kas attēlo taisnu līniju, kas atbilst datu punktiem. Kas ir lineārās regresijas piemēri? Lineārās regresijas lietojumprogrammu piemēri ir mājokļu cenu prognozēšana, pamatojoties uz kvadrātmetriem, eksāmenu rezultātu aprēķināšana no mācību stundām un pārdošanas prognozēšana, izmantojot reklāmas izdevumus.>>