Analýza závislej nominálnej premennej Y na nezávislých intervalových premenných X

Diskriminačná analýza

Ciele diskriminačnej analýzy

  1. Zistiť, či možno príslušnosť objektu k skupine (Y) vysvetliť jeho charakteristikami (premennými X).
  2. Identifikovať premenné X, ktoré najlepšie vystihujú príslušnosť objektu ku skupine.
  3. Nájsť klasifikačné funkcie, pomocou ktorých možno zatriediť nový objekt do jednej zo skupín.

Diskriminačná analýza (Fisher, 1936) je obdobou viacnásobnej regresie, ktorá skúma intervalovú premennú Y. Diskriminačná analýza vychádza z kanonickej korelácie. Prvú skupinu tvoria premenné X, druhá skupina pozostáva z vytvorených premenných, ktoré určujú príslušnosť objektu (v tvare 0/1, teda nie/áno) do každej skupiny okrem poslednej. Počet diskriminačných funkcií (kanonických premenných) sa rovná menšiemu z počtu premenných X a počtu skupín mínus 1. Každá diskriminačná funkcia je váženým priemerom premenných X. Čím je štandardizovaný koeficient (váha) väčšia tým má príslušná premenná väčší podiel na rozlišovaní (diskriminácii) objektov do skupín. Ďalej diskriminačná analýza nájde klasifikačné funkcie (rovnice) ktoré sú použité na zaradenie objektov do skupín (podľa hodnoty Y). Každá skupina má svoju klasifikačnú funkciu, ktorá predstavuje vážený priemer hodnôt premenných X. Úlohou diskriminačnej analýzy je nájdenie takých váh, ktoré by po použití na údaje najlepšie rozlišovali (diskriminovali) medzi skupinami. Objekt je zaradený vždy do skupiny v ktorej klasifikačná funkcia dosiahne najvyššie skóre.

Predpoklady

  1. Normálne rozdelenie
    Ak je veľkosť najmenšej vzorky aspoň 20 pozorovaní, robustnosť (necitlivosť voči porušeniu podmienky) by mala byť zaručená. Neprekonateľné problémy môžu spôsobovať extrémne prípady (outliers). Preto je vhodné uskutočniť testy normality pre všetky premenné X izolovane v jednotlivých skupinách.
  2. Homogenita variančno-kovariančných matíc
    Variančno-kovariančné matice majú byť približne rovnaké vo všetkých skupinách. Na overenie tejto podmienky možno použiť Boxov M test. Ak je táto podmienka priveľmi porušená, objekty budú klasifikované prednostne do skupín s väčšími kovarianciami. Korekcia je možná vyradením extrémnych prípadov alebo rozptyl stabilizujúcou transformáciou premenných X (napr. logaritmovanie).
  3. Linearita
    Predpokladá sa lineárna závislosť medzi nezávislými premennými. Je vhodné pozrieť si XY grafy pre každý pár nezávislých premenných, pričom pre každú skupinu (Y) sa použije iná farba. Výskyt krivkovej závislosti znižuje silu a rozlišovaciu schopnosť diskriminačných rovníc.
  4. Nezávislosť premenných X
    Porušenie tejto podmienky sa nazýva multikolinearita. Znamená to, že jedna premenná X je takmer váženým priemerom ostatných premenných X. Často sa objavuje v prípade malých vzoriek.

V dôsledku obmedzujúcich podmienok diskriminačnej analýzy (normalita a homogenita variančno-kovariančných matíc) sa v súčasnosti preferuje logistická regresia. Press a Wilson (1978) porovnali logistickú regresiu a diskriminačnú analýzu a prišli k záveru, že logistická regresia je vhodnejšia v prípade, že premenné nemajú multivariačné normálne rozdelenie vnútri skupín. V prípade normálneho rozdelenia vnútri skupín je však logistická regresia menej efektívna ako diskriminačná analýza.

Príklad: Súvisí úspešnosť pracovníka (Y) s počtom bodov (X1, X2,...), ktoré dosiahol ešte ako uchádzač v prijímacích testoch ? Ako na základe údajov o súčasných pracovníkoch možno podľa počtu bodov dosiahnutých v jednotlivých testoch určiť, či by uchádzač po prijatí dosahoval výborné, priemerné alebo zlé výsledky?