Zhluková analýza (Cluster analysis) sa zaoberá tým, ako by mali byť objekty (štatistické jednotky) zaradené do skupín tak, aby bola čo najväčšia podobnosť v rámci skupín a čo najväčšia rozdielnosť medzi skupinami. Zhluková analýza sa používa napr. pri segmentácii trhu, pričom klasifikácia spotrebiteľov je založená na kombinácii viacerých premenných. Premennými, teda segmentačnými kritériami môžu byť: pohlavie, vek, vzdelanie, životný štýl, náboženstvo, skúsenosti s produktom, veľkosť spotreby, frekvencia spotreby a pod.
Pri zohľadnení iba jednej premennej (1-D) je nájdenie zhlukov veľmi jednoduché: hodnoty premennej sa nanesú na číselnú os a zhluky sa identifikujú vizuálne (napr. podľa veku nájdeme v súbore 2 skupiny respondentov: jednu okolo 15 rokov a druhú okolo 40 rokov). Podobne použitím X-Y grafu možno jednoducho identifikovať zhluky pri zohľadnení 2 premenných (2-D). V priestore (3-D) sa pomocou interaktívneho X-Y-Z grafu tiež dajú nájsť zhluky vizuálne. Vizuálne identifikovať zhluky pri zohľadnení viac ako 3 premenných súčasne sa však už nedá. Práve vtedy sa používa zhluková analýza.
Zhluková analýza zahŕňa množstvo metód. Rozlišujú sa dve základné skupiny:
1. Hierarchické zhlukovacie metódy
2. Nehierarchické zhlukovacie metódy
Hierarchické zhlukovacie metódy
vychádzajú z jednotlivých objektov, ktoré reprezentujú zhluky. Ich spájaním sa v každom kroku počet zhlukov postupne zmenšuje až sa nakoniec všetky zhluky spoja do jedného celku. Hierarchické metódy vedú k hierarchickej (stromovej) štruktúre, ktorá sa graficky zobrazuje ako stromový diagram (dendrogram). Stromové zhlukovacie metódy začínajú výpočtom vzdialenosti medzi objektmi. Euklidovská vzdialenosť medzi objektmi i a j s n charakteristikami (premennými) sa vypočíta:
Alternatívnu vzdialenosť prestavuje vzdialenosť Manhattan (City-block):
Euklidovská vzdialenosť vyjadruje vzdušnú vzdialenosť medzi dvoma objektmi a vzdialenosť Manhattan najkratšiu vzdialenosť, ktorú musí chodec prejsť aby sa v meste dostal z jedného miesta na druhé. Výhoda vzdialenosti Manhattan spočíva v znížení dopadu extrémnych prípadov (outliers) na výsledky.
Existujú ešte viaceré iné typy vzdialeností, ktoré sa používajú napr. pri kategorických premenných.
Keď už máme vypočítané vzdialenosti medzi všetkými dvojicami objektov musíme určiť pravidlo podľa ktorého sa budú objekty spájať do zhlukov, teda ako sa bude určovať vzdialenosť medzi zhlukmi. Existujú viaceré pravidlá spájania:
Single linkage (Nearest Neighbour) – jednoduché spájanie (najbližší sused)
Vzdialenosť medzi dvoma zhlukmi je definovaná ako vzdialenosť dvoch najbližších členov.
Complete linkage (Furthest Neighbour) – kompletné spájanie (najvzdialenejší sused)
Vzdialenosť medzi dvoma zhlukmi je definovaná ako vzdialenosť dvoch najvzdialenejších členov.
Unweighted pair-group average (Group Average) – nevážený párový priemer (priemer skupín)
Vzdialenosť medzi zhlukmi je definovaná ako priemerná vzdialenosť medzi všetkými pármi, pričom 1.člen je z 1.zhluku a 2.člen z 2.zhluku.
Weighted pair-group average (Simple Average) – vážený párový priemer (jednoduchý priemer)
Podobná ako predošlá z tým rozdielom, že veľkosti zhlukov (počty objektov) sa berú ako váhy.
Unweighted pair-group centroid (Centroid) – nevážený centroid (centroid)
Vzdialenosť medzi dvoma zhlukmi je definovaná ako vzdialenosť centroidov týchto dvoch zhlukov. Centroid je vektor priemerov (každá súradnica je priemer príslušných súradníc objektov v zhluku).
Weighted pair-group centroid (Median) – vážený centroid (medián)
Podobná ako predošlá z tým rozdielom, že veľkosti zhlukov (počty objektov) sa berú ako váhy.
Wardova metóda
Táto metóda sa zreteľne odlišuje od všetkých ostatných pretože na určenie vzdialenosti medzi zhlukmi využíva prístup analýzy rozptylu. S touto metódou sa zhluky vytvárajú tak, aby sa vnútrozhlukový súčet štvorcov minimalizoval.
Nehierarchické zhlukovacie metódy
nevytvárajú stromovú štruktúru. Najznámejšia nehierarchická zhlukovacia metóda je metóda k-priemerov (k-means). Táto metóda sa vyznačuje tým, že vyprodukuje presne k-zhlukov tak, aby bol vnútroskupinový súčet štvorcov minimálny. Najvhodnejšia je na formovanie malého počtu zhlukov z veľkého počtu pozorovaní. Vyžaduje však intervalové premenné bez extrémnych hodnôt (outliers). Nominálne premenné sa dajú použiť ale môžu spôsobovať problémy.
Užitočnou metódou je neurčité zhlukovanie (Fuzzy clustering), ktoré na rozdiel od ostatných zhlukovacích metód, umožňuje čiastočné zaradenie objektu do viacerých zhlukov a to pomocou pravdepodobnosti.
Cieľom je zabrániť skresleniu zhlukovania kvôli prítomnosti nezaraditeľných objektov.
Takéto indivíduum sa nepriradí ku žiadnemu zhluku (od každého sa príliš odlišuje), ale priradia sa mu pravdepodobnosti s ktorými sa bude nachádzať v jednotlivých zhlukoch.
Metóda sa často používa pri odhaľovaní podvodov v rôznych oblastiach.
Napr. v bankovníctve sa bez vopred formulovanej definície podozrivej operácie z miliónov operácií klientov identifikuje pár desiatok takých, ktoré sa od zvyšných (zoskupených do niekoľkých zhlukov) pri použití viacerých premenných (napr. obrat, typ operácie, konštantný symbol, čas od zadania po jej splatnosť atď.) výrazne odlišujú.