Analýza závislej nominálnej premennej Y na nezávislých premenných X

Nominálna logistická regresia

Logistická regresná analýza skúma vzťah medzi nominálnou závislou premennou Y a skupinou nezávislých (vysvetľujúcich) premenných X. Názov logistická regresia sa používa keď je závislá premenná binárna. Označenie nominálna (viacskupinová) logistická regresia sa používa ak keď má závislá premenná tri a viac hodnôt. Logistická regresia predstavuje lepšiu alternatívu diskriminačnej analýzy pretože nevyžaduje normálne rozdelenie premenných X ani rovnosť variančno-kovariančných matíc. Logistická regresia vychádza z viacnásobnej regresii, ktorá však vyžaduje intervalovú premennú Y. Ak premenná Y nadobúda G rôznych hodnôt (G ≥ 2), logistický regresný model pozostáva z G-rovníc:

Nominálny logistický regresný model

Kde:
pg – pravdepodobnosť, že objekt s vektorom hodnôt nezávislých premenných X je v skupine g
Pg – apriórna pravdepodobnosť, že objekt patrí do skupiny g
βgi – regresný koeficient i-tej premennej X v g-tej rovnici
Bg – vektor regresných koeficientov g-tej rovnice (ak model obsahuje konštantu, Bg1=1)

Skupina 1 sa nazýva referenčná. Voľba referenčnej skupiny je ľubovoľná, najčastejšie je to najväčšia alebo kontrolná skupina. Regresné koeficienty β pre túto skupinu sa rovnajú 0, čím rovnica vypadáva a v logistickom regresnom modely zostáva G−1 rovníc. Odhad logistického regresného modelu sa robí metódou maximálnej vierohodnosti (maximum likelihood estimation). Odhad β sa zapisuje b.

Ak Y nadobúda tri hodnoty: A, B, C, pričom C je referenčná skupina, logistický regresný model s nezávislými premennými X1, X2 obsahuje dve rovnice:

Logistický regresný model 1

Logistický regresný model 2

Výraz v zátvorke (pomer pravdepodobnosti zaradenia do g-tej skupiny ku pravdepodobnosti zaradenia do referenčnej) sa nazýva šanca (Odds). Logaritmus šance sa nazýva Logit. Koeficient βA1 vyjadruje zmenu logitu A proti C pri zmene X1 o jednu jednotku. Ak je βgi > 0, potom zvýšenie hodnoty premennej Xi pri nezmenení hodnôt ostatných premenných X zvýši šancu zaradenia objektu do g-tej skupiny oproti referenčnej. Ak je βgi < 0, zvýšenie hodnoty Xi túto šancu zníži. Častejšie ako samotné regresné koeficienty (b) sa interpretujú pomery šancí (eb). Pomer šancí (Odds ratio) vyjadruje pomer šance zaradenia objektu do g-tej skupiny oproti referenčnej skupine ak sa Xi zvýši o 1, pričom ostatné X zostanú nezmenené k pôvodnej šanci. Na rozdiel od viacnásobnej regresie, interpretácia bi závisí na konkrétnej hodnote X, pretože pravdepodobnosti sa menia s hodnotami X. Interpretácie je jednoduchá v prípade binárnych premenných X. Keďže nadobúdajú iba dve hodnoty (0 alebo 1) existuje jediná interpretáciu bi. Pomer šancí predstavuje pomer šance zaradenia objektu do g-tej skupiny proti referenčnej ak X=1 ku šanci jeho zaradenia ak X=0.

Nominálnu premennúk úrovňami (hodnotami) možno do modelu zahrnúť tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú sa nazýva referenčná.

Ciele logistickej regresie

  1. Identifikácia premenných X, ktoré významne ovplyvňujú príslušnosť objektu ku skupine.
  2. Predikcia príslušnosti objektu do skupiny na základe jeho hodnôt premenných X.

Príklady:
Ako súvisí výskyt poistnej udalosti (Y) s vekom (X1), pohlavím (X2), vzdelaním (X3) a príjmom (X4) poistenca? Možno na základe osobných údajov poistencov a záznamoch o poistných udalostiach usúdiť, či bude alebo nebude mať záujemca o poistenie vážnu/miernu/žiadnu poistnú udalosť? Aký pooperačný stav pacienta (Y) možno očakávať ak máme k dispozícii výsledky jeho testov (X) a databázu testov a operačných výsledkov predchádzajúcich pacientov?