Testy normality

Induktívne štatistické metódy sa členia na parametrické a neparametrické.

a) Parametrické štatistické metódy narábajú s parametrami základných súborov, pričom vychádzajú zo špecifických predpokladov o rozdeleniach pravdepodobnosti základných súborov a výberových štatistík. Pri ich použití sa obyčajne predpokladá, že rozdelenie základného súboru je normálne (Gaussovo). Príkladom parametrickej metódy je Fisherova analýza rozptylu (ANOVA). V prípade porušenia normality možno skúsiť transformáciu (najčastejšie sa používa logaritmovanie) alebo použiť neparametrické metódy, ktoré nepredpokladajú konkrétne rozdelenie premennej. Dôsledkom centrálnej limitnej vety možno parametrické metódy použiť bez ohľadu na rozdelenie premennej v základnom súbore ak sú vzorky dostatočne veľké (n > 50). Veľký pozor si však vždy treba dať na extrémne hodnoty premenných, ktoré často spôsobujú nesprávnosť výsledkov. Vyradenie jediného extrémneho pozorovania môže úplne zmeniť výsledok parametrického testu.

b) Neparametrické metódy sa nespoliehajú na odhad parametrov charakterizujúcich rozdelenie premennej v základnom súbore. Preto sa tieto metódy niekedy (a správnejšie) označujú ako metódy s voľnými rozdeleniami. Neparametrické metódy pracujú s početnosťami (napr. Chi-kvadrát test nezávislosti) alebo s poradovými číslami, ktoré boli pridelené pôvodným údajom (napr. Kruskal-Wallisov test).

Prečo sa jednoducho vždy nepoužijú priamo neparametrické metódy?
Pri použití malých vzoriek zo základných súborov s normálnym rozdelením vykazujú neparametrické metódy v porovnaní s parametrickými menšiu silu testu. Na druhej strane v prípade veľkých vzoriek aj pri zjavnom porušení normality možno pokojne použiť parametrické metódy, ktoré sa počítajú ľahšie ako neparametrické.

Najväčšiu silu zo všetkých testov normality má vo väčšine situácií Shapiro-Wilkov W test (1965). Ak je W štatistika významná, nulovú hypotézu ktorá vyjadruje normálnosť rozdelenia treba zamietnuť. Test má nižšiu silu v porovnaní s ostatnými ak sa hodnoty premennej opakujú.

Problémom testov normality je ich malá sila (pravdepodobnosť zachytenia nenormality) v prípade malých vzoriek. Preto ak je výsledok testu zamietnutie (reject) normality, je takmer isté, že údaje nepochádzajú z normálneho rozdelenia. Ak je rozhodnutie nezamietnuť (don't reject) situácia nie je jasná. Ak je vzorka veľká (n > 50), možno predpokladať že rozdelenie sa blíži k normálnemu. Ak je vzorka malá, znamená to, že nie je dostatok dôkazov na to, aby bolo možné normalitu zamietnuť.