#PAGE_PARAMS# #ADS_HEAD_SCRIPTS# #MICRODATA#

Analýza dat v neurologii LXXVII. Korelační analýza vícerozměrných souborů kvantitativních dat – příklady


Vyšlo v časopise: Cesk Slov Neurol N 2019; 82(5): 586-590
Kategorie: Okénko statistika

V minulém díle jsme zahájili výklad statistické analýzy více korelačních koeficientů, které můžeme uspořádat do korelační matice. Připomeňme, že jde vždy o matici čtvercovou, která obsahuje vzájemné korelační koeficienty K společně měřených proměn­ných (X1, X2, …., XK) a na hlavní diagonále obsahuje hodnoty 1. Již tím, že tyto proměn­né sledujeme současně v jednom experimentu, dáváme najevo, že jejich vzájemné vztahy jsou podstatné. Čím více takových proměn­ných do experimentu či klinické studie zařadíme, tím více potenciálních dílčích vztahů můžeme zkoumat. Analýzy vysvětlující různé kombinace vzájemně korelovaných proměn­ných mají velký interpretační význam a mohou přispět i k objevu nových interakcí různých znaků.

Ambicí tohoto dílu seriálu je formou příkladů přiblížit čtenářům význam těchto analýz a přispět tak k jejich širšímu využívání. Ačkoli vše na první pohled vypadá relativně složitě, jde o výpočty, které jsou dostupné i běžnému uživateli počítačů a ke kterým není třeba exaktní matematické vzdělání. V předchozím výkladu jsme takto představili výpočty mnohonásobného koeficientu korelace a parciálních korelačních koeficientů, k jejichž vyčíslení je třeba pouze schopnost spočítat determinant korelační matice (výpočet byl v minulém díle dokumentován v příkladech 2 a 3). Oba tyto korelační koeficienty jsou typickými představiteli souhrn­ných koeficientů pracujících s korelacemi více proměn­ných současně. Obecně je charakterizujeme jako mnohorozměrné ukazatele vzájemné lineární závislosti náhodných veličin. V tomto díle budeme ve výkladu pokračovat a zahájíme jej shrnutím různých typů mnohonásobných korelací.

Příklad 1. Ukázky různých výsledků výpočtu koeficientu mnohonásobné korelace kalkulovaného na korelační matici 4 × 4.

Příklad 1. Ukázky různých výsledků výpočtu koeficientu mnohonásobné korelace kalkulovaného na korelační matici 4 × 4.

Příklad 2. Využití mnohonásobného koeficientu korelace pro hledání shluků vzájemně korelovaných proměnných.
Příklad 2. Využití mnohonásobného koeficientu korelace pro hledání shluků vzájemně korelovaných proměnných.

Příklad 3. Ukázky využití dílčích (parciálních) korelačních koeficientů.
Příklad 3. Ukázky využití dílčích (parciálních) korelačních koeficientů.

Zásadní pro kategorizaci koeficientů odvozovaných z korelační matice více proměn­ných je jejich smysl, resp. interpretační cíl. Typologie těchto koeficientů je užitečná i pro praxi, neboť definuje vlastní záměr vědeckého zpracování dat:

Koeficienty vícenásobné –  Kvantifikují lineární vztah mezi jednou vybranou proměn­nou a všemi dalšími v experimentu nebo několika dalšími zařazenými v experimentu. Ve skutečnosti je hodnocen lineární vztah mezi vybranou proměn­nou a lineárními kombinacemi těch dalších proměn­ných. Typickým zástupcem je v minulém díle představený mnohonásobný koeficient korelace.

Dílčí (parciální) koeficienty –  Cílem těchto ukazatelů je kvantifikovat „čistý“ lineární vztah dvou proměn­ných při vyloučení vlivu všech ostatních nebo vybraných proměn­ných v experimentu. Vyloučení vlivu znamená, že zkoumáme vztah dvou proměn­ných při konstantní hodnotě třetí proměn­né, nebo více dalších proměn­ných. Jde o ideální nástroj pro studium maskujících či zkreslujících vzájemných vlivů proměn­ných a také pro studium skutečně příčin­ných závislostí.

Podmíněné koeficienty –  Při výpočtu těchto koeficientů sledujeme kvantifikaci lineárního vztahu dvou proměn­ných pouze pro vybrané hodnoty jedné nebo několika dalších proměn­ných. Jde o velmi významné analýzy, které dokládají, zda je vztah sledovaných znaků nějak podmíněn konkrétními hodnotami znaků jiných. Na takto podmíněném vybraném intervalu hodnot ně­kte­rých proměn­ných lze rovněž hodnotit mnohonásobnou i parciální korelaci, jak je popsáno výše.

Význam výše uvedených analýz pro klinický výzkum jistě netřeba dále rozsáhle komentovat. Téměř si nelze představit studii či experiment, kde by nějaká forma vzájemného ovlivňování sledovaných proměn­ných neexistovala. Vzájemné ovlivňování proměn­ných může být jevem pro výsledky negativním až zavádějícím (např. sledujeme-li vztah mezi dávkou léku a jeho účinkem a tento je ovlivňován „zezadu“ faktory jako doba trvání terapie, pravidelnost užívání pa­cientem, mírou spolupráce pa­cienta či jinými charakteristikami pa­cienta nebo nemoci), ale také pozitivním (např. pokud objevíme, že rostoucí účin­nost zvyšujících se dávek léku je podmíněna hodnotami ně­kte­rých charakteristik nemoci). Strategický význam těchto analýz ještě zvyšuje prostý fakt, že prakticky nelze uspořádat experiment, který by vyloučil vliv všech proměn­ných již přímo při měření, zejména pak ne v reálné klinické praxi.

S výše uvedenými koeficienty pracujeme jako s normálními koeficienty mezi dvěma proměn­nými. Hodnoty těchto koeficientů blízké 0 jsou nevýznamné. Parciální a podmíněné koeficienty mohou nabývat hodnot od – 1 do +1, jako je tomu u běžné korelace. Mnohonásobné koeficienty jsou vždy kladné v rozsahu hodnot od 0 do +1. O interpretaci v podstatě rozhoduje již sám důvod, pro který byly koeficienty počítány. Různé situace přiblížíme v jednotlivých číselných příkladech, kde používáme postup výpočtu pomocí determinantu korelační matice (viz předchozí díl seriálu).

Příklad 1 dokládá různé možné varianty odhadu mnohonásobného koeficientu korelace kalkulovaného na korelační matici čtyř proměn­ných. Jde typickou situaci, kdy zjišťujeme sílu a významnost vztahu mezi zvolenou proměn­nou (X1) a několika dalšími (predikujícími) proměn­nými, v našem případě X2, X3, X4. Příklad 1a ukazuje na velmi silný vztah, kdy je proměn­ná X1 téměř absolutně korelována s ostatními proměn­nými, a jejich kumulativní vliv dovede její hodnoty téměř plně predikovat. V takovém případě lze diskutovat o tom, zda není proměn­ná X1 v souboru nadbytečná. Příklad 1b dokládá jinou variantu možného výsledku; proměn­ná X1 je zde nezávislá na dalších proměn­ných v experimentu.

U souborů obsahujících větší množství proměn­ných bývá častým úkolem prozkoumat vzájemné korelace všech proměn­ných a určit, zda tyto netvoří vzájemně nezávislé skupiny, které jsou ale uvnitř silně korelované (příklad 2). Nalezení takových skupin vzájemně korelovaných proměn­ných značně usnadňuje interpretaci mnohorozměrného měření. Pokud jsou takové skupiny znaků mezi sebou vzájemně nekorelované, pak tvoří komplexní dimenze, které mohou mít důležitou interpretaci. Příklad 2 je vymyšlen tak, aby nalezené dva shluky vzájemně korelovaných proměn­ných byly na první pohled patrné. V reálné praxi a u velkých korelačních matic tomu tak ale nebývá a uvedený kalkulační postup je potom nástrojem velkého významu, neboť může odhalit i skryté vztahy mezi proměn­nými.

Z příkladů 1 a 2 je patrné, jak komplikované mohou být vztahy mezi více proměn­nými měřenými v jedné studii. V reálném životě se jevy neprojevují izolovaně, vždy na námi sledované znaky působí další vlivy a ty buď v experimentu měříme, a můžeme je tedy podchytit, anebo neměříme, a jejich vliv nám uniká. Příklad 3 dokumentuje využití dílčích, parciálních korelací pro separování „čistého“ vztahu mezi dvěma znaky, při vyloučení vlivu dalších proměn­ných. Výsledek v příkladu 3a ukazuje, že vztah dvou separovaných proměn­ných není další proměn­nou ovlivněn, neboť parciální korelace je přibližně stejná jako základní korelace obou proměn­ných. Naopak v příkladu 3b bylo prokázáno, že pozorovaná základní korelace mezi dvěma separovanými proměn­nými je zprostředkována vlivem dalších proměn­ných a po odfiltrování jejich vlivu je korelace významně nižší a nevýznamná.

Zásadní význam parciálních korelací spočívá zejména v odhalování zprostředkovaných korelací, tedy vztahů mezi dvěma proměn­nými, které jsou zprostředkovány vlivem jiné či jiných proměn­ných. Učebnicovou ukázkou mohou být různá antropometrická měření, kdy jsou různé míry na postavě člověka ovlivňovány zejména výškou postavy. Představme si např. silnou korelaci mezi délkou dolních a horních končetin, kterou avšak eliminuje parciální analýza, při níž vyloučíme vliv výšky postavy. V praxi mohou nastat situace, kdy parciální korelace vede dokonce k opačnému znaménku korelačního koeficientu, než byl koeficient základní. Takovou situaci dokumentuje příklad 4, který pracuje se souborem dětí a s korelacemi výšky jejich postavy, hmotnosti a vzdáleností, kterou uběhnou za 5 min. Vstupní data příkladu vedou k základním korelacím, které potvrzují nepřekvapivý silný lineární vztah mezi hmotností dětí a výškou jejich postavy, vstupní korelace rovněž potvrzuje, že vyšší děti dále doběhnou. Avšak se vzdáleností uběhnutou za 5 minut zde pozitivně a významně koreluje i hmotnost dětí, což navozuje možný závěr, že rostoucí hmotnost dětí zvyšuje jejich výkon­nost v běhu. Avšak tato korelace se projevila zejména proto, že soubor dětí byl velmi heterogen­ní ve výšce postavy a vyšší dětí jsou také zpravidla těžší. Výška postavy tak ovlivňuje korelaci hmotnosti a výkon­nosti. Pokud vliv výšky postavy odfiltrujeme, získáváme záporný parciální koeficient. Tedy opačný výsledek, korelace zde dokonce změnila směr. Správný závěr tedy je, že při konstantní výšce postavy s rostoucí hmotností dětí jejich výkon­nost v běhu klesá.

Velká rozdílnost zkoumaných dětí ve výšce jejich postavy byla v příkladu 4 příčin­nou zavádějící korelace hmotnosti a výkon­nosti. To je poměrně častý jev, neboť různorodost (nehomogenita) zkoumané kohorty jedinců, zvláště v takto podstatném parametru, je vždy zdrojem potíží. Předpokládejme, že šlo o přirozenou variabilitu ve výšce postavy u dětí určité relativně úzké věkové kategorie. Avšak pokud by takto byly zařazeny děti výrazně různého věku, pak by šlo o zcela nesprávně postavený experiment, a výpočet korelace mezi hmotností a výkon­ností by byl zcela zavádějící. Parciální korelace může stejným způsobem jako v příkladu 4 odhalit také vliv jedné nebo několika odlehlých hodnot, které generují klamný obraz korelovaných proměn­ných.

Příklad 4. Výpočet dílčí (parciální) korelace, která odhalí významně zavádějící vliv třetí proměnné na korelační analýzu.
Příklad 4. Výpočet dílčí (parciální) korelace, která odhalí významně  zavádějící vliv třetí proměnné na korelační analýzu.

Data z příkladu 4 jsme dále využili v příkladu 5, který dokládá výpočet podmíněné korelace. Tuto analýzu lze vnímat jako alternativu k výpočtu parciální korelace z příkladu 4. Výpočtem parciální korelace v příkladu 4 jsme počítali „čistou“ korelaci mezi hmotností dítěte a jeho výkon­ností v běhu, a to při odfiltrování vlivu výšky. Alternativně můžeme hodnotit korelaci mezi dvěma proměn­nými, a to pro různé intervaly hodnot třetí, ovlivňující, proměn­né. Tak se odstraní její zprostředkující vliv a my uvidíme sledovanou korelaci v rámci tříd hodnot ovlivňující proměn­né.

V příkladu 4 i 5 jsme takto odhalili velmi zavádějící vliv třetí proměn­né na studovanou korelaci, přičemž šlo o příklady jednoduché, jejichž výsledek bylo možné uhodnout předem. Pokud si ale představíme ve skutečné studii pole několika desítek proměn­ných, z nichž ně­kte­ré mají i neznámou interpretaci (např. nové molekulárně bio­logické markery apod.), pak je takováto analýza průzkumem v prostředí, kde výsledek předem nemáme šanci uhodnout. Dopad na interpretaci konečného výsledku může být zásadní.

Příklad 5. Výpočet podmíněné korelace.
Příklad 5. Výpočet podmíněné korelace.

Snad jsme zde vypracovanými příklady přispěli k propagaci rozborů korelací více proměn­ných. Interpretační přínos těchto analýz je zřejmý a silně přispívá i ke studiu kauzálních vztahů. Jak jsme již rozebírali dříve (díl LIX seriálu), samotné statistické prokázání vztahu, např. korelací, neznamená průkaz kauzality. Pokud ale vztah dvou proměn­ných potvrdíme i parciálními korelacemi s vyloučením jiných ovlivňujících proměn­ných, jde o krok, který průkaz kauzality přibližuje.

prof. RNDr. Ladislav Dušek, Ph.D.

Institut bio­statistiky a analýz, LF MU, Brno

e‑mail: dusek@iba.muni.cz


Štítky
Dětská neurologie Neurochirurgie Neurologie

Článek vyšel v časopise

Česká a slovenská neurologie a neurochirurgie

Číslo 5

2019 Číslo 5

Nejčtenější v tomto čísle
Přihlášení
Zapomenuté heslo

Zadejte e-mailovou adresu, se kterou jste vytvářel(a) účet, budou Vám na ni zaslány informace k nastavení nového hesla.

Přihlášení

Nemáte účet?  Registrujte se

#ADS_BOTTOM_SCRIPTS#