Dvojrozmerná induktívna štatistika - intervalové premenné

Jednoduchá lineárna regresia, Pearsonov korelačný koeficient

Párová regresná analýza skúma lineárnu závislosť medzi dvoma kvantitatívnymi premennými (napr. hmotnosťou a výškou človeka) a je špecifickým prípadom viacnásobnej regresie. Jednoduchá regresia odhaduje regresné koeficienty β0β1 v rovnici:

yi = β0 + β1xi + εi

Kde:
yi – hodnota závislej premennej Y (kritéria) v i-tom pozorovaní
xi – hodnota nezávislej premennej X (prediktora) v i-tom pozorovaní
β0 – regresná konštanta (priesečník regresnej priamky s osou x)
β1 – regresný koeficient (smernica regresnej priamky)
εi – náhodná chyba i-teho pozorovania

Regresný koeficient sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom sa premennou X manipuluje), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej X zvýši o 1 jednotku. V prípade pozorovacej štúdie sa koeficient interpretuje ako očakávaný rozdiel hodnôt premennej Y dvoch pozorovaní, ktorých hodnota premennej X sa líši o jednu jednotku.

Za predpokladu, že údaje predstavujú náhodnú vzorku z populácie, sú vypočítané regresné koeficienty a korelačný koeficient najlepšími bodovými odhadmi neznámych parametrov. Okrem toho možno testovať hypotézy (nulová hypotéza, že koeficient sa rovná nule vyjadruje, že medzi premennými v základnom súbore neexistuje vzťah) a zostrojiť ich intervalové odhady. Testy hypotézintervalové odhady regresných koeficientov predpokladajú, že chyby εi sú vzájomne nezávislé (z čoho vyplýva, že aj yi sú nezávislé), normálne rozdelené s priemerom 0 a rovnakým rozptylom pre všetky hodnoty X.

Na základe vzorky n pozorovaní premenných X a Y, metóda najmenších štvorcov odhadne neznáme parametre β0β1 tak, aby bol súčet druhých mocnín rezíduí minimálny. Rezíduum ei je rozdiel medzi skutočnou hodnotou závislej premennej yi a hodnotou vypočítanou z regresnej funkcie dosadaním hodnoty xi:

Rezíduum

Rezíduum predstavuje vertikálnu vzdialenosť medzi bodom a regresnou priamkou:

Regresná priamka

Ciele regresnej analýzy môžu byť rôzne:

  1. Nájdenie rovnice, ktorá opisuje vzťah medzi premennými
  2. Odhad koeficientov - regresná analýza môže potvrdiť teóriu o vzťahu medzi premennými. Najčastejšie je záujem sústredený na znamienka a veľkosti koeficientov
  3. Predikcia - Cieľom je predpovedať hodnoty závislej premennej

Korelačný koeficient meria silu štatistickej závislosti medzi dvoma kvantitatívnymi premennými. Korelačná analýza na rozdiel od regresie nevyjadruje príčinno-následný vzťah Y=f(X). Premenná Y nezávisí na premennej X ale dve náhodné premenné X a Y sa spoločne menia. Regresná analýza predpokladá, že premenná Y je náhodná a premenná X fixná. Pod pojmom korelačný koeficient sa najčastejšie myslí Pearsonov korelačný koeficient (Pearson's product moment) z roku 1896, ktorý je mierou lineárnej závislosti dvoch premenných. Pearsonov korelačný koeficient ρ (ró) odhadnutý z náhodnej vzorky sa zapisuje r a vypočíta sa:

Pearsonov korelačný koeficient

Čitateľ sa nazýva kovariancia a vyjadruje ako sa súčasne menia hodnoty dvoch premenných. Kladná hodnota znamená, že sa menia spoločne jedným smerom, záporná hodnota znamená že sa menia opačným smerom a nula, že sa menia nezávisle. Vydelením kovariancie štandardnými odchýlkami sa vypočíta korelačný koeficient, ktorého hodnota sa nachádza v intervale od −1 do 1. Pearsonov korelačný koeficient sa rovná −1 v prípade, že všetky pozorovania ležia na klesajúcej priamke a 1 ak pozorovania ležia na stúpajúcej priamke.

Interpretácia korelačného koeficientu závisí od kontextu. Hodnota 0,8 pri overení fyzikálneho zákona použitím presných meracích prístrojov je veľmi nízka, v sociálnych vedách je však veľmi vysoká. Cohen (1988) vytvoril jednoduchú pomôcku pre interpretáciu korelačných koeficientov v psychologickom výskume: Korelácia (v absolútnej hodnote) pod 0,1 je triviálna, 0,1–0,3 malá, 0,3–0,5 stredná a nad 0,5 veľká.

Hodnota r 2 (R-squared) sa nazýva koeficient determinácie a vyjadruje podiel spoločnej variability medzi dvoma premennými. Test významnosti Pearsonovho korelačného koeficientu a intervalový odhad vyžadujú nezávislé pozorovania a bivariačné normálne rozdelenie.

Pearsonov korelačný koeficient je silne ovplyvniteľný extrémnymi hodnotami (outliers) a to v oboch smeroch. Jediný extrémista vo veľkom súbore môže významne znížiť silnú závislosť, ale aj vyrobiť silnú závislosť tam, kde žiadna nie je. Touto citlivosťou na extrémne hodnoty netrpia poradové korelačné koeficienty. Dôležité závery sa nesmú robiť iba na základe hodnoty koeficientu. Vždy je nutné preskúmať X-Y graf. Z grafu možno zistiť aj nelineárny ale silný vzťah medzi premennými. V takom prípade treba vzťah linearizovať transformáciou premenných (napr. logaritmovaním Y), ktoré sa následne použijú na výpočet korelácie.

Príklady:
Existuje vzťah medzi množstvom konzumácie kávy (X) a krvným tlakom (Y)?
Aká silná je závislosť medzi veľkosťou predaja výrobku (Y) a výdavkami na reklamu (X)?
Aký nárast predaja možno očakávať, ak zvýšime výdavky na reklamu o 1 mil. Sk?