Analýza dat v neurologii LXXVIII. Směsné míry korelace u vícerozměrných souborů kvantitativních a kvalitativních dat
Autoři:
L. Dušek; T. Pavlík; J. Jarkovský
; J. Koptíková
Působiště autorů:
LF MU, Brno
; Institut bio statistiky a analýz
Vyšlo v časopise:
Cesk Slov Neurol N 2019; 82(6): 706-708
Kategorie:
Okénko statistika
Typickým výstupem reálných experimentů jsou tzv. mnohorozměrné (vícerozměrné) soubory dat, kdy je N jedinců popisováno K proměnnými a zápis datového souboru vytváří datovou matici N × K. S rozšiřujícím se arzenálem různých vyšetřovacích metod a zejména s nástupem molekulárně biologických a genetických vyšetření se tento trend týká i klasického klinického výzkumu a výsledné datové matice zahrnují i mnoho desítek proměnných. Logicky vzniká potřeba vyhodnotit vzájemnou korelaci všech těchto proměnných, přičemž zdaleka ne vždy jde o proměnné kvantitativní, tedy spojité. V reálné praxi stojíme i před úkolem vyjádřit korelaci spojitých (metrických) proměnných (např. koncentrace látky v krvi, povrch těla pacienta apod.) s proměnnými ordinálními či binárními (např. dávka léčiva v několika kategoriích či toxicita léčby ve stupních dle grade). Těmto problémům budeme stručně věnovat tento díl seriálu.
Představme si, že máme za úkol popsat korelaci mezi spojitou proměnnou a proměnnou binární (diskrétní). Pro tento účel se používají tzv. biseriální korelace, které vedou k odhadu tzv. biseriálního korelačního koeficientu. Literatura rozlišuje několik typů těchto korelací podle toho, o jakou diskrétní proměnnou jde. Avšak než se pustíme do dalšího výkladu, musíme zdůraznit, že korelace v těchto případech dává smysl, pouze pokud lze diskrétní proměnnou vzestupně či sestupně jednoznačně uspořádat (tedy musí jít o binární znak nabývající hodnoty 0 či 1 anebo o znak ordinální, kde mají kategorie jasné pořadí). Pokud by diskrétní proměnná byla neuspořádaná, tedy dána v podstatě náhodnými kategoriemi bez pořadí (např. nominální znaky), pak korelace postrádá jakýkoli smysl a nelze ji vyčíslit.
Poměrně často používaným typem biseriálních korelací je tzv. bodově biseriální korelace vyjadřující sílu vztahu mezi spojitou proměnnou a proměnnou binární. Bodový biseriální koeficient korelace proměnných X (binární) a Y (spojitá) vypočítáme dle relativně jednoduchého vztahu, který dokumentuje příklad 1. Koeficient můžeme značit jako Rbis nebo Rpb z anglického „point biserial“. Postup je jednoduchý, hodnoty Y rozdělíme podle toho, zda k nim příslušná hodnota X je rovna 1 nebo 0 a následně pracujeme s průměrem hodnot Y v rámci každé z těchto skupin. Příklad koreluje s proměnnou X, která značí podání léku proti horečce při infekci (ano/ ne), s dobou, do kdy dojde k poklesu tělesné teploty pacientů. Příklad také dokládá statistický test významnosti tohoto koeficientu, tedy ověření platnosti hypotézy Rbis = 0.
Velmi užitečnou modifikací výše uvedeného výpočtu je tzv. pořadový biseriální korelační koeficient, který je využitelný za situací, kdy spojitá proměnná Y nesplňuje předpoklad normálního rozdělení hodnot. Výpočet je srovnatelný s výše uvedeným bodovým korelačním koeficientem, jen pracuje s průměrným pořadím hodnot Y pro kategorii X = 1 a pro kategorii X = 0. Příklad 2 dokumentuje odhad tohoto koeficientu na datech hodnotících vliv podpůrné předoperační terapie (proměnná X nabývající hodnoty 1/ 0) a doby rekonvalescence pacienta po operaci (spojitá proměnná Y).
Zobecněním biseriálních korelací jsou tzv. korelace polyseriální, které analyzují vztah spojité proměnné s proměnnou kategoriální (ordinální). Proměnná X zde tedy nenabývá pouze hodnot ano/ ne, ale je uspořádanou škálou hodnot, které např. vyjadřují odstupňovanou a rostoucí dávku podaného léčiva apod. Tyto korelace předpokládají, že za kategoriemi proměnné X existuje skrytá spojitá proměnná, jejíž hodnoty kategorie X reprezentují. Obdobným předpokladem jsou vybaveny také tzv. korelace polychorické, které odhadují sílu vztahu dvou diskrétních proměnných. Tyto metody již svou složitostí překračují rámec této kapitoly a je také nutno poznamenat, že metodou první volby při studiu vzájemného vztahu (asociace) dvou diskrétních znaků jsou jednoznačně kontingenční tabulky (např. díl 21 a 22 našeho seriálu). Pro ověření závislosti kategoriálních znaků uspořádaných v kontingenční tabulce standardně používáme chí-kvadrát test nezávislosti dvou znaků. Jako nadstavba analýzy kontingenčních tabulek se využívá tzv. koeficient kontingence, jehož výpočet přibližuje příklad 3.
Na závěr je nutné zdůraznit, že výše uvedené typy biseriálních a polyseriálních korelací mohou být využívány i za situace, kdy primárně pracujeme se spojitou proměnnou, ale přesné určení kvantitativní hodnoty u jednotlivých měření není možné, např. při odečítání počtu kolonií při bakteriologickém výsevu na živné půdě nebo při hodnocení stupně vyrážky na kůži. V těchto případech lze spojitou proměnnou nahradit pouze vzestupně uspořádanými intervaly hodnot a vzniká tak skrytě spojitá proměnná, kterou pro následný výpočet zastupuje proměnná binární či kategoriální, rozdělená do skupin hodnot. Tímto způsobem vlastně elegantně řešíme nepřesnost primárních měření, aniž bychom museli nějak modifikovat experimentální plán. Daný postup schematicky znázorňuje graf uvedený v příkladu 4.
prof. RNDr. Ladislav Dušek, Ph.D.
Institut biostatistiky a analýz, LF MU, Brno
e‑mail: dusek@iba.muni.cz
Štítky
Dětská neurologie Neurochirurgie NeurologieČlánek vyšel v časopise
Česká a slovenská neurologie a neurochirurgie
2019 Číslo 6
Nejčtenější v tomto čísle
- Klinické syndromy z oblasti cervikálního plexu
- Doporučení pro mechanickou trombektomii akutního mozkového infarktu – verze 2019
- Mechanická trombektómia v liečbe akútnej ischemickej cievnej mozgovej príhody v detskom veku
- Střelná poranění mozku