Analýza závislej binárnej premennej Y na nezávislých premenných X

Logistická regresia

Ciele logistickej regresie

  1. Identifikácia premenných X, ktoré významne ovplyvňujú príslušnosť objektu ku skupine.
  2. Predikcia príslušnosti objektu do skupiny na základe jeho hodnôt premenných X.

Logistická regresia vychádza z viacnásobnej regresii, ktorá však vyžaduje intervalovú premennú Y. Rozšírenie logistickej regresie na tri a skupín (závislá premenná Y je nominálna) sa nazýva nominálna logistická regresia. Logistické regresné modely patria medzi zovšeobecnené lineárne modely (Generalized Linear Models), ktoré sa používajú na predikciu závislej premennej Y, ktorá má diskrétne rozdelenie (môže nadobúdať iba obmedzený počet hodnôt) a/alebo premenná Y má nelineárny vzťah k prediktorom X. Lineárny logistický model sa zapisuje:

Logistický regresný model

P(Y = y2) = 1 − P(Y = y1)

Kde P je pravdepodobnosť, y1y2 sú dve možné hodnoty premennej Y (najčastejšie y1 predstavuje nastatie javu a y2 nenastatie javu), β-ty sú logistické regresné koeficienty, ktorých odhady sa zapisujú b.

Logistický model sa elementárnymi úpravami prevedie na nasledujúci lineárny tvar:

Logistický model - lineárny tvar

Výraz v zátvorke (podiel dvoch pravdepodobností) sa nazýva šanca (Odds). Napríklad ak je pravdepodobnosť výhry P=10 %, šanca na výhru = 0,1/(1−0,1)=0,1/0,9=1/9. Logaritmus šance sa nazýva logit.

Interpretácia koeficientov logistickej regresie je zložitejšia ako pri lineárnej regresii. Ak je bi>0, potom vyššie hodnoty premennej Xi, pri rovnakých hodnotách ostatných premenných X, zvyšujú šancu zaradenia objektu do 1. skupiny. Ak je bi<0, vyššie hodnoty Xi túto šancu znižujú. Častejšie ako samotné regresné koeficienty b sa interpretujú pomery šancí (eb). Pomer šancí (Odds Ratio) vyjadruje pomer šance zaradenia objektu do 1. skupiny ak sa Xi zvýši o 1, pričom ostatné X zostanú nezmenené, k pôvodnej šanci jeho zaradenia do 1. skupiny. Na rozdiel od viacnásobnej regresie, interpretácia b a teda aj pomeru šancí (eb) závisí na konkrétnej hodnote X, pretože pravdepodobnosti sa menia s hodnotami X. Interpretácie je jednoduchá v prípade binárnych premenných X. Keďže nadobúdajú iba dve hodnoty (0 alebo 1) existuje jediná interpretácia. Pomer šancí predstavuje pomer šance zaradenia objektu do 1. skupiny ak Xi=1 ku šanci jeho zaradenia ak Xi =0 pri rovnakých hodnotách ostatných premenných X.

Nominálnu premennúk úrovňami (hodnotami) možno do modelu zahrnúť tak, že sa z nej vytvorí k−1 binárnych premenných. Napríklad z nominálnej premennej X s troma hodnotami (A, B, C) sa vytvoria dve premenné XA a XB. Hodnota A dostane kód (1,0), hodnota B (0,1) a hodnota C (0,0). Hodnota nominálnej premennej X, ktorá nemá vytvorenú binárnu premennú (v našom príklad C) sa nazýva referenčná.

Príklady:
Možno očakávať pooperačné komplikácie pacienta (Y) ak máme k dispozícii výsledky jeho testov (X) a databázu testov a operačných výsledkov predchádzajúcich pacientov?
Ako súvisí výskyt veľkej poistnej udalosti (Y) s vekom (X1), pohlavím (X2), vzdelaním (X3) a príjmom (X4) poistenca? Ako na základe osobných údajov poistencov a záznamoch o poistných udalostiach možno usúdiť, či bude alebo nebude mať záujemca o poistenie veľkú poistnú udalosť?