Testy štatistických hypotéz (testy štatistickej významnosti)

Štatistická hypotéza je tvrdenie týkajúce sa základného súboru. V prípade parametrických testov je hypotéza tvrdenie o neznámej hodnote parametra základného súboru. Iba na základe výskumu celého základného súboru by bolo možné s úplnou istotou rozhodnúť o správnosti alebo nesprávnosti hypotézy. Takýto vyčerpávajúci výskum by však bol neekonomický, technicky neuskutočniteľný alebo neetický. Preto sa výskumu podrobuje iba časť základného súboru - výberový súbor (vzorka). Proces overovania správnosti alebo nesprávnosti hypotézy pomocou výsledkov získaných náhodným výberom sa nazýva testovanie štatistických hypotéz. Základným predpokladom štatistickej indukcie je náhodný výber.


Postup testovania hypotéz:

1) Formulácia nulovej hypotézy (H0)
Konečným cieľom väčšiny štatistických testov je zhodnotenie vzťahu medzi premennými. Nulová hypotéza potom vyjadruje nezávislosť premenných. Napríklad nulová hypotéza t-testu vyjadruje rovnosť priemerov dvoch základných súborov. Rozdiel zistený vo vzorke sa považuje za náhodný (je dôsledkom náhodného výberu).

2) Formulácia alternatívnej hypotézy (Ha)
Väčšinou chceme dokázať pravdivosť alternatívnej hypotézy, ktorá najčastejšie vyjadruje štatistickú závislosť premenných. Pravdivosť alternatívnej hypotézy sa dokazuje vždy iba nepriamo a to tak, že ukážeme, že nulová hypotéza je nepravdepodobná a alternatívna (jediná zostávajúca) je teda pravdepodobná. Alternatívna hypotéza má napr. tvar: priemery základných súborov sa nerovnajú. Rozdiel nameraný vo vzorke je teda štatisticky významný. Ak však chceme napr. zistiť, či sa po podaní lieku znížil priemerný krvný tlak pacientov (možnosť zvýšenia tlaku po podaní lieku úplne vylučujeme), alternatívna hypotéza bude mať tvar: priemer 1 je väčší ako priemer 2. Takéto jednostranné hypotézy sa používajú zriedkavo a s veľkou opatrnosťou.

3) Stanovenie hladiny významnosti (α)
Hladina významnosti je pravdepodobnosť chyby I. druhu, ktorú urobíme ak zamietneme nulovú hypotézu, ktorá v skutočnosti platí. Teda ak príjdeme k záveru, že medzi premennými existuje vžťah, pričom medzi nimi vzťah nie je. Alfa sa tradične stanovuje na 5 % (= 0,05) alebo 1 %.

4) Výpočet testovacej štatistiky a pravdepodobnosti
Zo vzorky sa vypočíta testovacia štatistika, ktorá má za predpokladu pravdivosti nulovej hypotézy príslušné rozdelenie pravdepodobnosti (F, Chi-kvadrát, t). P-hodnota (P-Value, Probability Level) predstavuje pravdepodobnosť, že testovacia štatistika za predpokladu pravdivosti nulovej hypotézy dosiahne pri najmenšom tak extrémnu hodnotu ako je hodnota vypočítaná zo vzorky. P-hodnota je pravdepodobnosť, že vzťah zistený z našich údajov je iba dôsledkom nešťastnej vzorky a ak by sme vybrali ďalšiu náhodnú vzorku, nemuseli by sme nájsť nič. P-hodnota je najnižšia hodnota hladiny významnosti, ktorá vedie k zamietnutiu nulovej hypotézy. P-hodnota je odhadovaná pravdepodobnosť zamietnutia pravdivej nulovej hypotézy. Čím menšia je P, tým viac sme presvedčení, že nulová hypotéza nie je pravdivá a mala by byť zamietnutá.

5) Rozhodnutie
Ak P < α, nulová hypotéza sa voči príslušnej alternatívnej hypotéze zamietne. Znamená to, že rozdiel nameraný vo vzorke je príliš veľký na to aby bol iba náhodný. Medzi premennými teda existuje vzťah.
Ak P ≥ α, nulovú hypotézu nemožno zamietnuť. Znamená to, že rozdiel nameraný vo vzorke môže byť iba náhodný. Často sa v takomto prípade nesprávne hovorí, že nulová hypotéza sa prijíma. Správny je výrok, že nemáme dostatočné dôkazy na to, aby sme nulovú hypotézu zamietli. Teda nemáme dostatok dôkazov na to, aby sme tvrdili, že medzi premennými existuje vzťah.

V praxi sa veľmi často hladina významnosti nestanovuje vopred, teda P-hodnota sa interpretuje samostatne. Väčšina autorov uvádza P < 0,05 ako štatisticky významný a P < 0,01 ako štatisticky vysoko významný vzťah.


Situácie, ktoré môžu nastať pri testovaní hypotéz

Rozhodnutie
Skutočnosť H0 nezamietnutá H0 zamietnutá
H0 pravdivá Správne rozhodnutie (p = 1−α) Chyba I. druhu (p = α)
H0 nepravdivá Chyba II. druhu (p = β) Správne rozhodnutie (p = 1−β)

H0: Nulová hypotéza
p: Pravdepodobnosť nastatia danej situácie
α: Significance level (hladina významnosti)
1−α: Confidence level (spoľahlivosť)
1−β: Power (sila testu)


Sila testu a veľkosti vzoriek

Sila testu (pravdepodobnosť zachytenia existujúceho významného rozdielu) závisí od:

  1. Variability
  2. Veľkosti vzorky
  3. Pravdepodobnosti chyby I. druhu (α)
  4. Veľkosti efektu

Čím je vyššia variabilita hodnôt premennej, tým je nižšia sila testu. Zvýšenie zvyšných troch faktorov zvyšuje silu testu. Veľkosť efektu je veľkosť rozdielu parametrov (napr. rozdiel priemerov pri t-teste), ktorý možno zachytiť napr. experimentom. Na zachytenie veľkého efektu stačí menšia vzorka ako na zachytenie malého efektu. Voľba vhodnej veľkosti efektu je často ťažká, pretože je veľmi subjektívna. Voliť sa má vždy taká veľkosť efektu, ktorá je pre daný výskum užitočná. Vzťahmi medzi variabilitou, veľkosťou vzorky, alfou, veľkosťou efektu a silou testu sa zaoberá analýza sily (Power Analysis). Analýzou sily sa treba zaoberať už pri plánovaní výskumu. Nedostatočná veľkosť vzorky, môže spôsobiť nezachytenie relevantného efektu. Príliš veľká vzorka stojí zbytočne veľa času a peňazí s minimálnym úžitkom. Analýza sily je značne komplikovaná, preto sa veľmi často vôbec nerobí. Na analýzu sily je nutné použiť kvalitný software.


Nevýhody testovania hypotéz

Výsledok testovania hypotéz je dichotomické rozhodnutie o tom, či zamietnuť alebo nezamietnuť nulovú hypotézu. Veľmi často je takýto výsledok nepostačujúci - napr. v prípade testovania efektívnosti novej liečby. Výskumník sa zaujíma o silu efektu nie o to, či sa efekt rovná presne 0. Porovnávanie P-hodnôt (aj v rámci jednej štúdie) bez doplňujúcich informácií a následným vyvodením záverov nemusí byť správne. Ak napríklad vo viacfaktorovej ANOVA faktor A má P=0,0001 a faktor B P=0,049, nemôžeme jednoducho povedať, že faktor A má silnejší efekt ako faktor B. Samotná P-hodnota 0,001 môže v skutočnosti znamenať 3 situácie: 1) triviálny (z praktického hľadiska nevýznamný) efekt v základnom súbore zistený z veľkej vzorky 2) silný efekt v základnom súbore zistený zo stredne veľkej vzorky 3) obrovský efekt v základnom súbore zistený z malej vzorky.


Výhody intervalových odhadov

Intervalové odhady odpovedajú na otázku v akých hraniciach možno očakávať skutočný efekt v základnom súbore. Poskytujú teda viac informácií ako testy hypotéz. V prípade, že chceme zistiť, či je liek proti vysokému krvnému tlaku účinný, môžeme použiť párový t-test. Vzorke pacientov zmeriame tlak pred a po podávaní lieku. Ak sa priemerný rozdiel tlakov významne odlišuje od 0, potom má liek účinok. Silu účinku však možno určiť len intervalovým odhadom priemerného rozdielu. Intervalový odhad nám s danou spoľahlivosťou (pravdepodobnosťou v %) povie, aký pokles tlaku môžeme očakávať v základnom súbore tvorenom pacientmi s vysokým krvným tlakom. Veľkou výhodou intervalových odhadov je ich vypovedacia schopnosť. Z intervalu, ktorý je príliš široký (vykazuje veľkú chybu) jasne vidno, že veľkosť vzorky je nedostatočná. Naopak, z intervalu ktorý je úzky, pričom vyjadruje triviálny efekt vidno, že štatistická významnosť je dosiahnutá veľkou vzorkou (teda príliš veľkou silou testu).

Jediný intervalový odhad poskytuje dostatok informácií na priame uskutočnenie teoreticky nekonečného množstva testov hypotéz. Ak je 95%-ný interval spoľahlivosti rozdielu dvoch priemerov od 10 do 15, znamená to zamietnutie nulovej hypotézy (na 5%-nej hladine významnosti), že rozdiel priemerov dvoch základných súborov sa rovná 0 (pretože 0 sa nachádza mimo intervalu od 10 do 15.) Pre ten istý interval však s 95%-nou spoľahlivosťou nemožno zamietnuť hypotézu, že rozdiel priemerov základných súborov sa rovná 12 (lebo 12 patrí do intervalu od 10 do 15).