Dvojrozmerná deskriptívna štatistika - číselná premenná a kategorická premenná

Na opisánie vzťahu medzi číselnou a kategorickou premennou sa používajú:

a) Opisná tabuľka

b) Eta koeficient

c) Priemerový graf

d) Škatuľový graf



Opisná tabuľka

Opisné tabuľky obsahujú opisné charakteristiky číselnej premennej v jednotlivých skupinách určených hodnotou kategorickej premennej.

Tab. 1 Opisné charakteristiky veku

Počet Priemer Štand. odchýlka Minimum Maximum
Muži 76 36,6 9,4 22 58
Ženy 3 209 39,7 8,9 19 61
Celkovo 3 285 39,6 8,9 19 61


Eta koeficient

Eta koeficient (η) sa niekedy nazýva aj korelačný pomer a je mierou sily vzťahu medzi číselnou a kategorickou premennou. V psychologickom výskume možno na interpretáciu Eta použiť škálu, ktorú zaviedol Cohen v roku 1988: Korelácia menej ako 0,1 je triviálna, 0,1–0,3 malá, 0,3–0,5 stredná a nad 0,5 je veľká. Druhá mocnina (η2), podobne ako koeficient determinácie (R2) – je podiel variability závislej (číselnej) premennej, ktorú možno pripísať nezávislej (kategorickej) premennej. Ak je vzťah medzi premennými dokonale lineárny R2 a η2 sa rovnajú. V ostatných prípadoch je hodnota η2 vždy vyššia a možno ju použiť na posúdenie nelineárnej závislosti medzi 2 číselnými premennými.



Priemerový graf

Priemerový graf zobrazuje priemery číselnej premennej v skupinách určených hodnotou kategorickej premennej. Na horizontálnej osi x je uvedený názov skupiny a na osi y je bodom zobrazený priemer v príslušnej skupine. Úsečky, ktoré spájajú body (priemery) sú na to, aby v prípade minimálnych rozdielov medzi priemermi bolo podľa ich sklonu zrejmé, ktorý priemer je väčší.

Priemerový graf

Obr. 1 Priemerný vek mužov a žien



Škatuľový graf

Škatuľový graf (Box Plot), ktorý sa niekedy nazýva Škatuľovo-fúzový graf (Box and Whisker Plot) opísal Tukey v roku 1977. Tento graf predstavuje najlepší spôsob na grafické znázornenie rozdelenia hodnôt číselnej premennej v skupinách.

Škatuľový graf

Obr. 2 Rozdelenie veku u mužov a žien

Horizontálna čiara predstavuje medián (50. percentil), horná hrana škatule 75. percentil a dolná hrana 25. percentil. Dĺžka obdĺžnika predstavuje medzikvartilové rozpätie (IQR), teda stredných 50 % hodnôt súboru. Význam hornej a dolnej čiarky závisí od typu škatuľového grafu. V najjednoduchšej podobe predstavuje horná čiarka maximum a dolná čiarka minimum. Horná čiarka však často znázorňuje 95. percentil a dolná čiarka 5. percentil. V najzložitejšej podobe grafu horná čiarka predstavuje 75. percentil + 1,5 × IQR (neextrémne maximum) a dolná čiarka 25. percentil − 1,5 × IQR (neextrémne minimum). Odľahlé pozorovania (outliers) ležiace mimo týchto intervalov môžu byť znázornené ako body. Škatuľový graf možno umiestniť vertikálne (obr. 2), alebo horizontálne (hodnoty premennej budú na osi x).