Analýza vzťahov medzi nominálnymi premennými

Log-lineárna analýza

Log-lineárna analýza študuje vzťahy medzi dvoma alebo viacerými nominálnymi premennými. Nazýva sa aj viaccestná frekvenčná analýza a predstavuje rozšírenie známeho Chi-kvadrát testu na 3 a viac premenných. Loglineárne modely (LLM) možno použiť na analýzu dotazníkov, ktoré obsahujú komplexné vzťahy medzi otázkami. Dotazníky sú často analyzované porovnávaním vždy iba dvoch otázok (premenných) súčasne. Tento prístup ignoruje dôležité trojcestné (a viaccestné) vzťahy medzi premennými. Použitie LLM na analýzu nominálnych premenných je sofistikovanejšie ako použitie Chi-kvadrát testu, podobne ako viacnásobnej regresie namiesto jednoduchých korelačných koeficientov u intervalových premenných. LLM na rozdiel od parametrických metód vyžaduje málo predpokladov. Všetky pozorovania musia byť nezávislé (získané od rôznych subjektov) náhodným výberom a ich počet musí byť veľký.

LLM vychádza z viaccestnej krížovej tabuľky. Nasledujúca trojcestná tabuľka zobrazuje početnosti v jednotlivých kategóriách premenných A, B a C, každá s dvoma úrovňami (hodnotami 1 a 2).

Početnosť A B C
23 1 1 1
100 1 1 2
16 1 2 1
8 1 2 2
35 2 1 1
4 2 1 2
59 2 2 1
18 2 2 2

Multiplikatívny model, ktorý presne reprodukuje pozorované početnosti v tabuľke sa nazýva Saturovaný a má tvar:

mijk = N αi βj γk δij εik φjk ηijk

Keďže uvedená rovnica má multiplikatívnu formu, ťažko sa s ňou pracuje. Logaritmovaním oboch strán dostaneme log-lineárny model:

Log-lineárny model

Lambdy sa nazývajú efekty. Horný index reprezentuje premenné (A, B, C) a dolný index ich hodnoty (V uvedenej tabuľke i=1, 2 j=1, 2 k=1, 2). Rád efektu sa rovná počtu premenných v hornom indexe. Testovaním, či sa niektorá lambda rovná nule, možno overiť rôzne vzťahy. Napr. ak chceme otestovať, či sú všetky početnosti rovnaké testujeme či sú všetky efekty rovné 0. Testovaním či λAB sú rovné 0 testujeme či sú premenné A, B nezávislé. Testovaním či λA sú rovné 0 testujeme či sú početnosti kategórií premennej A rovnaké.

Dôležité je pochopiť interpretáciu viaccestných interakcií. Nech premenná A je vek rozdelený do kategórií, B je stres a C farba vlasov. Trojcestná interakcia by mohla znamenať, že pri absencii stresu má vek malý vplyv na farbu vlasov, ale za prítomnosti stresu je vplyv veku silný. Štvorcestná interakcia premenných A (pohlavie), B (rasa), C (zamestnanie), D (fluktuácia) by mohla mať nasledovnú interpretáciu: U mužov bielej rasy s určitým zamestnaním je zvýšená pravdepodobnosť odchodu z organizácie. Interpretáciu významnej interakcie treba vždy robiť porovnaním percent v bunkách tabuľky.

Postup pri LLM

  1. Nájdenie vhodného modelu
    Cieľom je nájsť čo najjednoduchší model, ktorý by však dostatočne dobre predpovedal početnosti v jednotlivých bunkách tabuľky. Existuje viacej techník na nájdenie vhodného modelu. Jedna z najrozšírenejších pracuje tak, že z kompletného modelu (ktorý presne reprodukuje pozorované početnosti) sa postupne odoberajú komplexné interakcie až do stavu, keď by ďalšie zjednodušenie modelu znamenalo štatistiky významný pokles jeho vhodnosti. Pri porovnávaní vhodnosti dvoch modelov sa používajú dve relatívne miery kvality: Pearsonova Chi-kvadrát štatistika a štatistika pomeru pravdepodobností. Pravdepodobnostný pomer má na rozdiel od Pearsonovej štatistiky veľmi vhodnú vlastnosť aditivitu. Sú však situácie v ktorých je Pearsonova štatistika presnejšia. Ak obe štatistiky vedú k rovnakému výsledku je to istejšie najmä v prípade menších vzoriek. Skôr ako sa model použije, treba uskutočniť analýzu rezíduí (rozdielov medzi skutočnými početnosťami a početnosťami predpovedanými modelom).
  2. Interpretácia modelu
    Interpretácia pozostáva z interpretácie významných faktorov a interakcií. To sa zvyčajne robí tak, že sa tabuľka rozdelí na viacej tabuliek v ktorých sa analyzujú percentá v jednotlivých bunkách (podobne ako pri Chi-kvadrát teste).