Mašīnmācība ir mākslīgā intelekta nozare, kas koncentrējas uz tādu algoritmu un statistikas modeļu izstrādi, kas var mācīties no datiem un veikt prognozes par tiem. Lineārā regresija ir arī mašīnmācības algoritma veids, konkrētāk a uzraudzīts mašīnmācīšanās algoritms kas mācās no marķētajām datu kopām un kartē datu punktus uz visvairāk optimizētajām lineārajām funkcijām. ko var izmantot jaunu datu kopu prognozēšanai.
Vispirms mums vajadzētu zināt, kas ir uzraudzītie mašīnmācīšanās algoritmi. Tas ir mašīnmācīšanās veids, kurā algoritms mācās no marķētiem datiem. Apzīmētie dati ir datu kopa, kuras attiecīgā mērķa vērtība jau ir zināma. Uzraudzītai apmācībai ir divi veidi:
- Klasifikācija : tā paredz datu kopas klasi, pamatojoties uz neatkarīgo ievades mainīgo. Klase ir kategoriskas vai diskrētas vērtības. kā dzīvnieka tēls ir kaķis vai suns?
- Regresija : Tas prognozē nepārtrauktos izvades mainīgos, pamatojoties uz neatkarīgo ievades mainīgo. piemēram, mājokļu cenu prognozēšana, pamatojoties uz dažādiem parametriem, piemēram, mājas vecumu, attālumu no galvenā ceļa, atrašanās vietu, teritoriju utt.
Šeit mēs apspriedīsim vienu no vienkāršākajiem regresijas veidiem, t.i. Lineārā regresija.
Satura rādītājs
- Kas ir lineārā regresija?
- Lineārās regresijas veidi
- Kāda ir labākā Fit Line?
- Lineārās regresijas izmaksu funkcija
- Vienkāršās lineārās regresijas pieņēmumi
- Daudzkārtējas lineārās regresijas pieņēmumi
- Lineārās regresijas novērtēšanas metrika
- Python Lineārās regresijas ieviešana
- Lineāro modeļu legalizācijas metodes
- Lineārās regresijas pielietojumi
- Lineārās regresijas priekšrocības un trūkumi
- Lineārā regresija — bieži uzdotie jautājumi (FAQ)
Kas ir lineārā regresija?
Lineārā regresija ir veids uzraudzīta mašīnmācība algoritms, kas aprēķina lineāro sakarību starp atkarīgo mainīgo un vienu vai vairākām neatkarīgām pazīmēm, pielāgojot novērotajiem datiem lineāru vienādojumu.
Ja ir tikai viena neatkarīga iezīme, to sauc par Vienkārša lineārā regresija , un, ja ir vairāk nekā viena funkcija, to sauc par Daudzkārtēja lineārā regresija .
Līdzīgi, ja ir tikai viens atkarīgais mainīgais, tas tiek ņemts vērā Viendimensiju lineārā regresija , savukārt, ja ir vairāk nekā viens atkarīgais mainīgais, to sauc par Daudzfaktoru regresija .
Java apakšvirknes piemērs
Kāpēc lineārā regresija ir svarīga?
Lineārās regresijas interpretējamība ir ievērojama priekšrocība. Modeļa vienādojums nodrošina skaidrus koeficientus, kas izskaidro katra neatkarīgā mainīgā ietekmi uz atkarīgo mainīgo, veicinot dziļāku izpratni par pamatā esošo dinamiku. Tā vienkāršība ir priekšrocība, jo lineārā regresija ir caurspīdīga, viegli īstenojama un kalpo kā pamatkoncepcija sarežģītākiem algoritmiem.
Lineārā regresija nav tikai prognozēšanas rīks; tas veido pamatu dažādiem uzlabotiem modeļiem. Tādas metodes kā regularizācija un atbalsta vektoru mašīnas smeļas iedvesmu no lineārās regresijas, paplašinot tās lietderību. Turklāt lineārā regresija ir stūrakmens pieņēmumu pārbaudē, ļaujot pētniekiem apstiprināt galvenos pieņēmumus par datiem.
Lineārās regresijas veidi
Ir divi galvenie lineārās regresijas veidi:
Vienkārša lineārā regresija
Šī ir vienkāršākā lineārās regresijas forma, un tā ietver tikai vienu neatkarīgu mainīgo un vienu atkarīgo mainīgo. Vienkāršas lineārās regresijas vienādojums ir:
kur:
- Y ir atkarīgais mainīgais
- X ir neatkarīgais mainīgais
- β0 ir krustpunkts
- β1 ir slīpums
Daudzkārtēja lineārā regresija
Tas ietver vairāk nekā vienu neatkarīgu mainīgo un vienu atkarīgo mainīgo. Vairākkārtējas lineārās regresijas vienādojums ir:
kur:
- Y ir atkarīgais mainīgais
- X1, X2, …, Xp ir neatkarīgi mainīgie
- β0 ir krustpunkts
- β1, β2, …, βn ir slīpumi
Algoritma mērķis ir atrast labākā Fit Line vienādojums, kas var paredzēt vērtības, pamatojoties uz neatkarīgiem mainīgajiem.
Regresijā ierakstu kopa ir ar X un Y vērtībām, un šīs vērtības tiek izmantotas, lai iemācītos funkciju, tādēļ, ja vēlaties paredzēt Y no nezināma X, var izmantot šo apgūto funkciju. Regresijā jāatrod Y vērtība, Tātad ir nepieciešama funkcija, kas paredz nepārtrauktu Y regresijas gadījumā, ja X kā neatkarīgas pazīmes.
Kāda ir labākā Fit Line?
Mūsu galvenais mērķis, izmantojot lineāro regresiju, ir atrast vispiemērotāko līniju, kas nozīmē, ka kļūda starp prognozētajām un faktiskajām vērtībām ir jāsamazina līdz minimumam. Vismazāk kļūdu būs vislabāk atbilstošā līnijā.
Labākais Fit Line vienādojums nodrošina taisnu līniju, kas atspoguļo attiecības starp atkarīgo un neatkarīgo mainīgo. Līnijas slīpums norāda, cik lielā mērā atkarīgais mainīgais mainās atkarībā no vienības izmaiņām neatkarīgajā mainīgajā(-os).

Lineārā regresija
Šeit Y tiek saukts par atkarīgo vai mērķa mainīgo, un X tiek saukts par neatkarīgu mainīgo, kas pazīstams arī kā Y prognozētājs. Ir daudz dažādu funkciju vai moduļu, ko var izmantot regresijai. Lineāra funkcija ir vienkāršākais funkcijas veids. Šeit X var būt viens līdzeklis vai vairāki līdzekļi, kas atspoguļo problēmu.
Lineārā regresija veic uzdevumu, lai prognozētu atkarīgā mainīgā vērtību (y), pamatojoties uz doto neatkarīgo mainīgo (x)). Tādējādi nosaukums ir Lineārā regresija. Augšējā attēlā X (ievade) ir darba pieredze un Y (izeja) ir personas alga. Regresijas līnija ir mūsu modelim vispiemērotākā līnija.
Mēs izmantojam izmaksu funkciju, lai aprēķinātu labākās vērtības, lai iegūtu vislabāko atbilstības līniju, jo dažādas svaru vērtības vai līniju koeficients rada dažādas regresijas līnijas.
Hipotēzes funkcija lineārajā regresijā
Kā jau iepriekš pieņēmām, ka mūsu neatkarīgā iezīme ir pieredze, ti, X, un attiecīgā alga Y ir atkarīgais mainīgais. Pieņemsim, ka starp X un Y pastāv lineāra sakarība, tad algu var prognozēt, izmantojot:
VAI
Šeit,
y_i epsilon Y ;; (i= 1,2, cdots , n) ir datu etiķetes (uzraudzīta apmācība)x_i epsilon X ;; (i= 1,2, cdots , n) ir ievades neatkarīgi apmācības dati (viendimensionāls — viens ievades mainīgais (parametrs))hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) ir paredzamās vērtības.
Modelis iegūst labāko regresijas atbilstības līniju, atrodot labāko θ1un θ2vērtības.
- i 1 : pārtvert
- i 2 : koeficients x
Kad esam atraduši labāko θ1un θ2vērtības, mēs iegūstam vispiemērotāko līniju. Tātad, kad mēs beidzot izmantosim savu modeli prognozēšanai, tas prognozēs y vērtību x ievades vērtībai.
Kā atjaunināt θ 1 un θ 2 vērtības, lai iegūtu vispiemērotāko līniju?
Lai sasniegtu vispiemērotāko regresijas līniju, modeļa mērķis ir paredzēt mērķa vērtību
Lineārās regresijas izmaksu funkcija
The izmaksu funkcija vai zaudēšanas funkcija ir nekas cits kā kļūda vai atšķirība starp prognozēto vērtību
Lineārajā regresijā, Vidējā kvadrāta kļūda (MSE) tiek izmantota izmaksu funkcija, kas aprēķina vidējo kļūdu kvadrātā starp prognozētajām vērtībām
Linux marka
MSE funkciju var aprēķināt šādi:
Izmantojot funkciju MSE, tiek izmantots iteratīvais gradienta nolaišanās process, lai atjauninātu vērtības.
Šis process ietver nepārtrauktu parametru ( heta_1) un ( heta_2) pielāgošanu, pamatojoties uz gradientiem, kas aprēķināti no MSE. Gala rezultāts ir lineāra regresijas līnija, kas samazina kopējās kvadrātiskās atšķirības starp prognozētajām un faktiskajām vērtībām, nodrošinot optimālu pamatā esošās attiecības attēlojumu datos.
Gradienta nolaišanās lineārajai regresijai
Lineārās regresijas modeli var apmācīt, izmantojot optimizācijas algoritmu gradienta nolaišanās iteratīvi modificējot modeļa parametrus, lai samazinātu vidējā kvadrātiskā kļūda (MSE) modeļa apmācības datu kopā. Lai atjauninātu θ1un θ2vērtības, lai samazinātu izmaksu funkciju (minimizētu RMSE vērtību) un sasniegtu vislabāko atbilstību modelim, izmantojot Gradient Descent. Ideja ir sākt ar nejaušu θ1un θ2vērtības un pēc tam iteratīvi atjauniniet vērtības, sasniedzot minimālās izmaksas.
Gradients nav nekas cits kā atvasinājums, kas definē ietekmi uz funkcijas izvadiem, nedaudz mainot ievades.
Atšķirsim izmaksu funkciju (J) attiecībā uz
Atšķirsim izmaksu funkciju (J) attiecībā uz
Lineārās regresijas mērķis ir atrast tādu lineārā vienādojuma koeficientus, kas vislabāk atbilst apmācības datiem. Pārvietojoties Mean Squared Error negatīvā gradienta virzienā attiecībā pret koeficientiem, koeficientus var mainīt. Un attiecīgais nogrieznis un X koeficients būs, ja
Gradienta nolaišanās
Vienkāršās lineārās regresijas pieņēmumi
Lineārā regresija ir spēcīgs instruments, lai izprastu un prognozētu mainīgā uzvedību, tomēr tai ir jāatbilst dažiem nosacījumiem, lai tie būtu precīzi un uzticami risinājumi.
- Linearitāte : neatkarīgajiem un atkarīgajiem mainīgajiem ir lineāra saistība vienam ar otru. Tas nozīmē, ka izmaiņas atkarīgajā mainīgajā lineārā veidā seko neatkarīgā(-o) mainīgā(-u) izmaiņām. Tas nozīmē, ka ir jābūt taisnai līnijai, ko var novilkt caur datu punktiem. Ja sakarība nav lineāra, tad lineārā regresija nebūs precīzs modelis.

- Neatkarība : novērojumi datu kopā ir neatkarīgi viens no otra. Tas nozīmē, ka viena novērojuma atkarīgā mainīgā vērtība nav atkarīga no cita novērojuma atkarīgā mainīgā vērtības. Ja novērojumi nav neatkarīgi, tad lineārā regresija nebūs precīzs modelis.
- Homoskedastiskums : visos neatkarīgā(-o) mainīgā(-u) līmeņos kļūdu dispersija ir nemainīga. Tas norāda, ka neatkarīgā(-o) mainīgā(-u) lielums neietekmē kļūdu dispersiju. Ja atlikumu dispersija nav nemainīga, tad lineārā regresija nebūs precīzs modelis.

Homoscedasticitāte lineārajā regresijā
- Normalitāte : Atlikumiem jābūt normāli sadalītiem. Tas nozīmē, ka atlikumiem vajadzētu sekot zvanveida līknei. Ja atlikumi nav normāli sadalīti, lineārā regresija nebūs precīzs modelis.
Daudzkārtējas lineārās regresijas pieņēmumi
Vairāku lineāro regresiju izmanto visi četri vienkāršās lineārās regresijas pieņēmumi. Papildus tam zemāk ir vēl daži:
alfabēts pēc cipariem
- Nav daudzkolinearitātes : starp neatkarīgiem mainīgajiem nav augstas korelācijas. Tas norāda, ka starp neatkarīgiem mainīgajiem ir neliela korelācija vai tās nav vispār. Daudzkolinearitāte rodas, ja divi vai vairāki neatkarīgi mainīgie ir ļoti savstarpēji saistīti, kas var apgrūtināt katra mainīgā individuālās ietekmes noteikšanu uz atkarīgo mainīgo. Ja ir multikolinearitāte, tad vairākkārtēja lineārā regresija nebūs precīzs modelis.
- Pievienotība: Modelis pieņem, ka prognozējamā mainīgā izmaiņu ietekme uz atbildes mainīgo ir konsekventa neatkarīgi no pārējo mainīgo vērtībām. Šis pieņēmums nozīmē, ka starp mainīgajiem nav mijiedarbības to ietekmē uz atkarīgo mainīgo.
- Funkciju izvēle: Vairākkārtējai lineārai regresijai ir svarīgi rūpīgi atlasīt neatkarīgos mainīgos, kas tiks iekļauti modelī. Neatbilstošu vai lieku mainīgo lielumu iekļaušana var izraisīt modeļa pārmērību un sarežģīt modeļa interpretāciju.
- Pārmērīga uzstādīšana: Pārmērīga pielāgošana notiek, ja modelis pārāk cieši pielāgo apmācības datus, tverot troksni vai nejaušas svārstības, kas neatspoguļo patiesās pamatā esošās attiecības starp mainīgajiem. Tas var novest pie sliktas vispārināšanas veiktspējas jauniem, neredzētiem datiem.
Daudzkolinearitāte
Daudzkolinearitāte ir statistiska parādība, kas rodas, ja divi vai vairāki neatkarīgi mainīgie daudzkārtējas regresijas modelī ir ļoti korelēti, tādēļ ir grūti novērtēt katra mainīgā individuālo ietekmi uz atkarīgo mainīgo.
Daudzkolinearitātes noteikšana ietver divus paņēmienus:
- Korelācijas matrica: Neatkarīgo mainīgo korelācijas matricas pārbaude ir izplatīts veids, kā noteikt multikolinearitāti. Augstas korelācijas (tuvu 1 vai -1) norāda uz iespējamu multikolinearitāti.
- VIF (variances inflācijas koeficients): VIF ir mērs, kas kvantitatīvi nosaka, cik lielā mērā palielinās aprēķinātā regresijas koeficienta dispersija, ja jūsu prognozētāji ir korelēti. Augsts VIF (parasti virs 10) liecina par daudzkolinearitāti.
Lineārās regresijas novērtēšanas metrika
Dažādas novērtēšanas pasākumi var izmantot, lai noteiktu jebkura lineārās regresijas modeļa stiprumu. Šie novērtējuma rādītāji bieži norāda uz to, cik labi modelis rada novērotos rezultātus.
Visizplatītākie mērījumi ir:
Vidējā kvadrāta kļūda (MSE)
Vidējā kvadrāta kļūda (MSE) ir novērtējuma metrika, kas aprēķina vidējo atšķirību kvadrātā starp faktiskajām un prognozētajām vērtībām visiem datu punktiem. Atšķirība ir kvadrātā, lai nodrošinātu, ka negatīvās un pozitīvās atšķirības viena otru neizslēdz.
Šeit,
- n ir datu punktu skaits.
- uniir faktiskā vai novērotā vērtība ithdatu punkts.
widehat{y_{i}} ir paredzamā vērtība ithdatu punkts.
MSE ir veids, kā kvantitatīvi noteikt modeļa prognožu precizitāti. MSE ir jutīga pret novirzēm, jo lielas kļūdas būtiski ietekmē kopējo rezultātu.
Vidējā absolūtā kļūda (MAE)
Vidējā absolūtā kļūda ir novērtējuma metrika, ko izmanto, lai aprēķinātu regresijas modeļa precizitāti. MAE mēra vidējo absolūto starpību starp prognozētajām vērtībām un faktiskajām vērtībām.
Matemātiski MAE izsaka šādi:
Šeit,
- n ir novērojumu skaits
- UNiatspoguļo faktiskās vērtības.
widehat{Y_i} apzīmē prognozētās vērtības
Zemāka MAE vērtība norāda uz labāku modeļa veiktspēju. Tas nav jutīgs pret novirzēm, jo mēs uzskatām absolūtas atšķirības.
Root Mean Squared Error (RMSE)
Atlikuma dispersijas kvadrātsakne ir Saknes vidējā kvadrāta kļūda . Tas apraksta, cik labi novērotie datu punkti sakrīt ar paredzamajām vērtībām vai modeļa absolūto atbilstību datiem.
Matemātiskajā apzīmējumā to var izteikt šādi:
Tā vietā, lai dalītu visu modeļa datu punktu skaitu ar brīvības pakāpju skaitu, ir jāsadala atlikuma summa kvadrātā, lai iegūtu objektīvu novērtējumu. Tad šis skaitlis tiek saukts par atlikušo standarta kļūdu (RSE).
Matemātiskajā apzīmējumā to var izteikt šādi:
RSME nav tik labs rādītājs kā R kvadrāts. Root Mean Squared Error var svārstīties, ja mainīgo lielumu vienības mainās, jo tās vērtība ir atkarīga no mainīgo vienībām (tas nav normalizēts rādītājs).
Determinācijas koeficients (R kvadrātā)
R kvadrāts ir statistika, kas norāda, cik lielu variāciju izstrādātais modelis var izskaidrot vai uztvert. Tas vienmēr ir diapazonā no 0 līdz 1. Kopumā, jo labāk modelis sakrīt ar datiem, jo lielāks ir R kvadrāta skaitlis.
Matemātiskajā apzīmējumā to var izteikt šādi:
- Kvadrātu atlikusī summa (RSS): atlikuma kvadrātu summa katram datu punktam diagrammā vai datos ir zināma kā kvadrātu atlikuma summa jeb RSS. Tas ir atšķirības starp novēroto un paredzēto rezultātu mērījums.
RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2} - Kopējā kvadrātu summa (TSS): Datu punktu kļūdu summa no atbildes mainīgā vidējā lieluma ir zināma kā kvadrātu kopējā summa jeb TSS.
TSS= sum_{}^{}(y-overline{y_{i}})^2
R kvadrātveida metrika ir atkarīgā mainīgā dispersijas proporcijas mērs, kas modelī ir izskaidrots neatkarīgiem mainīgajiem.
Pielāgota R kvadrāta kļūda
Pielāgots R2mēra dispersijas proporciju atkarīgajā mainīgajā, ko regresijas modelī izskaidro neatkarīgi mainīgie. Pielāgots R kvadrāts ņem vērā prognozētāju skaitu modelī un soda modeli par neatbilstošu prognozētāju iekļaušanu, kas būtiski nepalīdz izskaidrot atkarīgo mainīgo dispersiju.
tīģera lauvas atšķirība
Matemātiski koriģēts R2ir izteikts šādi:
Šeit,
- n ir novērojumu skaits
- k ir prognozētāju skaits modelī
- R2ir apņēmības koeficients
Pielāgotais R-kvadrāts palīdz novērst pārmērīgu pielāgošanu. Tas soda modeli ar papildu prognozētājiem, kas būtiski neveicina atkarīgā mainīgā dispersijas izskaidrošanu.
Python Lineārās regresijas ieviešana
Importējiet nepieciešamās bibliotēkas:
Python3 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation> Ielādējiet datu kopu un atdaliet ievades un mērķa mainīgos
Šeit ir saite uz datu kopu: Datu kopas saite
Python3 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)> Izveidojiet lineārās regresijas modeli un uzzīmējiet regresijas līniju
Darbības:
- Izplatīšanā uz priekšu Lineārās regresijas funkcija Y=mx+c tiek izmantota, sākotnēji piešķirot parametra nejaušo vērtību (m & c).
- Mēs esam uzrakstījuši funkciju, lai atrastu izmaksu funkciju, t.i., vidējo

