Dvojrozmerná induktívna štatistika - intervalová premenná a nominálna premenná - nezávislé vzorky

Jednofaktorová analýza rozptylu

Jednosmerná analýza rozptylu (One-Way ANOVA) je najjednoduchšou formou ANOVA (ANalysis Of VAriance). Jednosmerná (jednoduchá) ANOVA skúma vzťah medzi intervalovou a nominálnou premennou (faktorom), napr. množstvom cholesterolu v krvi a typom diéty alebo predajnosťou výrobku a druhom obalu. Cieľom analýzy rozptylu je odhaliť, či vo vzorke zistené rozdiely priemerov jednotlivých skupín (podľa úrovne faktora) sú štatisticky významné (medzi premennými je vzťah) alebo môžu byť iba náhodné (medzi premennými nie je vzťah). Overuje sa to tak, že sa celková variabilita (suma štvorcov odchýlok hodnôt premennej od jej priemeru) rozdelí na vnútroskupinovú (náhodná chyba) a medziskupinovú (daná rozdielom priemerov skupín). F-štatistika sa vypočíta ako pomer medziskupinovej a vnútroskupinovej variability a použije sa na testovanie nulovej štatistickej hypotézy o rovnosti priemerov.

Ak je P-hodnota nižšia ako zvolená hladina významnosti (tradične 5 % = 0,05), nulová hypotéza sa zamietne. Znamená to, že rozdiel medzi aspoň jednou dvojicou priemerov vypočítaných zo vzorky je príliš veľký na to, aby mohol byť iba dôsledkom náhodného výberu, je teda štatisticky významný – medzi premennými je vzťah.

Ak je P-hodnota rovná alebo vyššia ako zvolená hladina významnosti, nulovú hypotézu nemožno zamietnuť. Znamená to, že rozdiel medzi každou dvojicou priemerov vypočítaných zo vzorky môže byť iba dôsledkom náhodného výberu, nie je teda štatisticky významný – medzi premennými nie je vzťah.

Jednofaktorová analýza rozptylu predstavuje rozšírenie dvojvzorkového t-testu. V prípade porovnávania dvoch skupín (faktor má iba dve úrovne) ANOVA vedie k rovnakému výsledku ako t-test.

ANOVA sa typicky zameriava na testovanie významnosti nie sily asociácie. Pritom v prípade veľkých vzoriek sa môže stať, že priemery skupín sa významne líšia, ale tieto rozdiely sú malé. Preto pri použití ANOVA treba uvádzať aj silu asociácie pre významné efekty. Veľkosť efektu, ktorý má faktor na závislú premennú sa meria pomocou Eta2 a Omega2. Eta2 (η2) sa vypočíta ako podiel medziskupinovej a celkovej sumy štvorcov a vyjadruje podiel celkovej variability, ktorá sa prisudzuje faktoru. Eta2 je obdobou koeficientu determinácie R2, ktorý sa používa v regresnej analýze. Nevýhodou Eta2 je skreslenosť odhadu efektu v populácii - efekt systematicky nadhodnocuje. Omega2 (ω2) predstavuje alternatívu mieru veľkosti efektu k Eta2 s rovnakou interpretáciou poskytujúcou neskreslené odhady efektu. Eta2 predstavuje stupeň asociácie medzi efektom a závislou premennou vo vzorke a Omega2 odhad stupňa asociácie v základnom súbore.

Okrem toho, či medzi priemermi existujú rozdiely možno zistiť, ktoré priemery sa líšia. Na porovnanie priemerov existujú dva typy testov: a priori kontrasty a post hoc testy. Kontrasty sú testy plánované pred začatím analýzy a post hoc testy po prevedení analýzy.

Plánované porovnania sa definujú pomocou kontrastných koeficientov. Ak máme 4 skupiny, tak kontrast (−3, 1, 1, 1) porovnáva priemer prvej skupiny s priemerom zvyšných troch, (0, −2, 1, 1) porovnáva priemer druhej skupiny s priemerom tretej a štvrtej a (0, 0, −1, 1) porovnáva priemer tretej skupiny s priemerom štvrtej.

Post hoc testy sa používajú v prípade ak ANOVA zachytila významný rozdiel medzi priemermi na identifikáciu, skupín, ktorých priemery sa od seba líšia. Existuje mnoho Post hoc testov: Bonferroniho, Duncanov, Dunnettov, Dunnov, Fisherov LSD, Gabrielov, Games-Howellov, Hochbergov, Hsuov, Ryan-Einot-Gabriel-Welschov, Scheffeho, Sidakov, Student-Newman-Keulsov, Tamhaneho, Tukey-KramerovWaller-Duncanov. Vhodnosť ich použitia závisí od danej situácie. Tieto testy predstavujú určitú korekciu (náhradu) dvojvzorkového t-testu, ktorý by v prípade použitia na viacerých dvojiciach produkoval nesprávne výsledky.

Predpoklady

  1. Rezíduá (odchýlky hodnôt od priemerov príslušných skupín) majú normálne rozdelenie
  2. Rozptyly základných súborov sú rovnaké
  3. Nezávislosť skupín (každá skupina obsahuje iné objekty)
  4. Všetky skupiny sú náhodné vzorky z príslušných základných súborov

Silná stránka Fisherovej analýzy rozptylu je jej robustnosť - malá citlivosť voči porušeniu podmienok. Normalita je nutná iba pri malých vzorkách (n < 50), podmienka rovnosti rozptylov je nutná iba v prípade rôzných veľkostí jednotlivých vzoriek.

V súčasnosti sa na testovanie rovnosti rozptylov viacerých skupín namiesto parametrického Bartlettovho testu (1937), ktorý je citlivý voči porušenie normality používa Levenov test (1960), resp. jeho modifikácia Brown-Forsytheov test (1974). Levenov test je v podstate jednocestná analýza rozptylu absolútnych hodnôt odchýlok pozorovaní od mediánov príslušných skupín. Jediným predpokladom použitia Levenovho testu je, že údaje predstavujú náhodné vzorky so spojitých rozdelení. V prípade porušenia podmienky rovnosti rozptylov treba namiesto F-štatistiky uprednostniť Welchovu štatistiku.

V prípade malých vzoriek a zamietnutia normality, treba namiesto ANOVA použiť neparametrické alternatívy: Kruskal-Wallisov test alebo Westenberg-Moodov mediánový test, ktoré porovnávajú mediány skupín.