Analýza závislej intervalovej premennej Y na nezávislých intervalových premenných X

Viacnásobná regresia

Viacnásobná regresia (tento výraz ako prvý použil Pearson v roku 1908) skúma lineárnu závislosť medzi dvoma a viacerými premennými. Úlohou je odhadnúť βj v rovnici:

yi = β0 + β1xi1 + β2xi2 + ... + βnxin + εi

kde:
yi – hodnota závislej premennej Y (kritéria) v i-tom pozorovaní
xij – hodnota j-tej nezávislej premennej X (prediktora) v i-tom pozorovaní (i = 1, 2, ..., m)
βj – neznámy regresný koeficient j-tej premennej X (j = 1, 2, ..., n)
εi – náhodná chyba i-teho pozorovania

Regresný problém sa tradične rieši metódou najmenších štvorcov, ktorá zvolí b (odhady neznámych parametrov β) tak, aby sa minimalizoval súčet štvorcov rezíduí. Výberová regresná rovnica sa zapisuje:

Výberová regresná rovnica = b0 + b1xi1 + b2xi2 + ... + bnxin

Rezídua ei sú definovaných ako:

Rezíduum

Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. V prípade pozorovacej štúdie sa bj interpretuje ako očakávaný rozdiel hodnôt premennej Y dvoch pozorovaní, ktorých hodnota premennej Xj sa líši o jednu jednotku, pričom ostatné premenné X majú rovnaké hodnoty. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov. Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y.

Ak bola vzorka získaná náhodným výberom a sú splnené všetky nasledujúce podmienky, možno použiť testy významnosti regresných koeficientov a ich intervalové odhady.

Predpoklady

  1. Lineárny vzťah medzi premennou Y a premennými X
    Ak je vzťah medzi premennými zjavne nelineárny (napr. Y = sin X), treba príslušné premenné transformovať a v regresnom modely ich použiť namiesto pôvodných premenných (X' = sin X).
  2. Rezíduá majú rovnaký rozptyl pre všetky hodnoty premenných X
  3. Normálne rozdelenie rezíduí
  4. Rezíduá sú vzájomne nezávislé
  5. Všetky extrémne prípady (outliers) boli z údajov vylúčené
  6. Nezávislosť premenných X
    Porušenie tejto podmienky sa nazýva multikolinearita. Znamená to, že jedna premenná X je takmer váženým priemerom ostatných premenných X. Často sa objavuje v prípade malých vzoriek.

Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X. Nominálna premennák úrovňami (hodnotami) môže byť do modelu zahrnutá tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú sa nazýva referenčná. Koeficient Bxa vyjadruje nárast Y, keď pozorovanie prejde z referenčnej skupiny (C) do skupiny A pri zachovaní pôvodných hodnôt ostatných premenných X.

Viacnásobná regresia, ANOVA, ANCOVA, MANOVAMANCOVA patria do rodiny modelov známych ako všeobecné lineárne modely (General linear models – GLM). Všeobecný lineárny model (prvý krát predstavený Nelderom a Wedderburnom v roku 1972) je zovšeobecnením lineárneho regresného modelu a skúma závislosť jednej alebo viacerých intervalových premenných na jednej alebo viacerých nezávislých intervalových a/alebo nominálnych premenných. Základnou ideou GLM je to, že vzťah medzi závislými a nezávislými premennými je vyjadrený rovnicou, ktorá obsahuje vážený priemer hodnôt nezávislých premenných a výraz pre chybu na nevysvetlené efekty.

Príklad: Ako vplýva na predaj výrobku (Y) jeho cena (X1) a výdavky na reklamu (X2)?