logo

Hī kvadrāta tests R

The hī kvadrāta tests neatkarības novērtējums, novērtē, vai pastāv saistība starp divu mainīgo kategorijām. Pamatā ir divu veidu nejaušie mainīgie, un tie nodrošina divu veidu datus: skaitliskos un kategoriskos. In R programmēšanas valoda Hī kvadrāta statistiku izmanto, lai noskaidrotu, vai kategorisko mainīgo sadalījumi atšķiras viens no otra. Hī kvadrāta tests ir noderīgs arī, salīdzinot divu (vai vairāku) neatkarīgu grupu kategorisko atbilžu sakritības vai skaitu.

Programmēšanas valodā R Hī kvadrāta testa veikšanai tiek izmantota funkcija chisq.test()> .



Sintakse:

chisq.test(dati)

java ir vienāda

Parametri:



datus : dati ir tabula, kurā ir tabulas mainīgo lielumu skaits.

Mēs ņemsim aptaujas datus MASS> bibliotēku, kas atspoguļo studentu aptaujas datus.

R






# load the MASS package> library>(MASS)> print>(>str>(survey))>

>

abstraktā klase pret interfeisu
>

Izvade:

'data.frame': 237 obs. of 12 variables:  $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ...  $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ...  $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ...  $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ...  $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ...  $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ...  $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ...  $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ...  $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ...  $ Height: num 173 178 NA 160 165 ...  $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ...  $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>

Iepriekš minētais rezultāts parāda, ka datu kopā ir daudz faktoru mainīgo, kurus var uzskatīt par kategoriskiem mainīgajiem. Mūsu modelī mēs ņemsim vērā mainīgos Exer un Smēķēt Slejā Dūmi tiek reģistrēti skolēnu smēķēšanas ieradumi, savukārt kolonnā Exer tiek reģistrēts viņu vingrinājumu līmenis. Mūsu mērķis ir pārbaudīt hipotēzi, vai skolēnu smēķēšanas ieradums ir neatkarīgs no viņu slodzes līmeņa 0,05 nozīmīguma līmenī.

R




# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)>

>

>

Izvade:

 Freq None Some  Heavy 7 1 3  Never 87 18 84  Occas 12 3 4  Regul 9 1 7>

Un visbeidzot mēs piemērojam chisq.test()> funkciju uz ārkārtas tabulu stu_data.

R




atšķirība starp divām stīgām python
# applying chisq.test() function> print>(>chisq.test>(stu_data))>

>

>

Izvade:

 Pearson's Chi-squared test  data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>

Tā kā p-vērtība 0,4828 ir lielāka par 0,05, mēs secinām, ka smēķēšanas ieradums nav atkarīgs no skolēna fiziskās aktivitātes līmeņa, un tāpēc starp abiem mainīgajiem ir vāja korelācija vai tās nav vispār. Pilns R kods ir norādīts zemāk.

Tātad, rezumējot, var teikt, ka ir ļoti viegli veikt Hī kvadrāta testu, izmantojot R. Šo uzdevumu var veikt, izmantojot chisq.test()> funkcija R.

Vizualizējiet Chi-Square testa datus

R

pavasaris un pavasaris mvc




# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))>

>

>

Izvade:

gh

Hī kvadrāta tests R

Šajā kodā mēs izmantojamMASS>bibliotēku, lai veiktu Hī kvadrāta testu “aptaujas” datu kopā, koncentrējoties uz saistību starp smēķēšanas paradumiem un fiziskās aktivitātes līmeni.

Tas izveido ārkārtas tabulu, veic statistisko pārbaudi un vizualizē datus, izmantojot joslu diagrammu. Leģenda ir pievienota atsevišķi augšējā kreisajā stūrī, nošķirot dažādus smēķēšanas ieradumus ar atšķirīgām krāsām.

Koda mērķis ir izpētīt un paziņot par saistību starp smēķēšanas uzvedību un vingrošanas praksi datu kopā.