Analýza dat v neurologii: XXXVII. Statistické testy srovnávající odhady poměru šancí a relativního rizika

Stáhnout PDF

Autoři: L. Dušek; T. Pavlík; J. Jarkovský ; J. Koptíková
Působiště autorů: Institut biostatistiky a analýz MU, Brno
Vyšlo v časopise: Cesk Slov Neurol N 2013; 76/109(1): 114-118
Kategorie: Okénko statistika

Tento díl statistického seriálu volně navazuje na předchozí části a rozvíjí problematiku odhadu poměru šancí („odds ratio“, OR) a relativního rizika („relative risk“, RR) v tzv. asociačních studiích. Takto označujeme studie (většinou observační, neintervenční), které zkoumají asociaci mezi expozicí nějakým faktorem (rizikovým nebo protektivním) a výskytem nějaké události (vznik nemoci, komplikace nemoci, relaps nemoci, úmrtí apod.); cílem studie je existující asociaci identifikovat a kvantifikovat a následně posoudit její statistickou významnost. Statistické testování je zvlášť důležité, neboť nám pomáhá určit statisticky významné asociace, které nejsou výsledkem náhody a u nichž lze následně hledat odpovídající klinickou nebo epidemiologickou interpretaci. V tomto díle se zaměříme na statistické testy pro odhady OR a RR, základní vysvětlení jejich významu bylo uvedeno v dílech XXXV a XXXVI.

V předchozím výkladu jsme doložili poměrně jednoduchý postup, jak posoudit statistickou významnost jednotlivých odhadů OR nebo RR pomocí jejich intervalu spolehlivosti. Pokud interval spolehlivosti zahrnuje hodnotu 1, nemůžeme prokázat statisticky významný rozdíl v četnosti výskytu události mezi exponovanými a neexponovanými jedinci, a nemůžeme tudíž prokázat významnou asociaci mezi zkoumanou expozicí a danou událostí. Pokud odhady OR či RR dokonce dosáhnou přesně hodnoty 1, pak jde o situaci, kdy daný faktor vůbec neovlivňuje výskyt dané události. Pokud však 95% interval spolehlivosti odhadu leží mimo hodnotu 1, potom hovoříme o statistické významnosti odhadu OR nebo RR na hladině 5 %. Je-li OR (RR) > 1, pak takto prokazujeme významný rizikový faktor, při OR (RR) < 1 jde naopak o faktor protektivní. Minulé díly seriálu rovněž zdůraznily, že interval spolehlivosti je třeba považovat za povinný, neboť bez něj nemůže být interpretace odhadů OR (RR) plnohodnotná.

Jednoduché a jistě snadno pochopitelné využití intervalu spolehlivosti nám takto pomáhá posoudit statistickou významnost jednotlivých odhadů OR nebo RR. Co ale dělat v případě, kdy potřebujeme vzájemně porovnat více odhadů OR či RR a otestovat statistickou významnost rozdílů mezi nimi? Tato otázka je zcela na místě, neboť vzájemné srovnávání výstupů asociačních studií je v klinickém výzkumu velmi časté. Uveďme zde několik typických situací, které ke srovnávání odhadů OR a RR nevyhnutelně vedou:

Několik vzájemně zcela nezávislých studií případů a kontrol studuje stejné potenciálně rizikové faktory, které mohou způsobovat výskyt závažných komplikací nějaké choroby; chceme porovnat jednotlivé odhady OR a zjistit, zda se statisticky významně liší, a zda jsou závěry různých studií konzistentní, či nikoliv.
U klinické studie pracujeme s kohortou pacientů a zdravých kontrol a hodnotíme asociaci potenciálně rizikových faktorů s výskytem nemoci. Aplikujeme určitý klasifikační (stratifikační) faktor a obě kohorty rozdělíme na dvě nebo i více podskupin (tzv. strata) a srovnáváme, zda je asociace rizikového faktoru s nemocí stejně silná nebo rozdílná v těchto podskupinách.
Prospektivně získáme ve dvou nemocnicích různé kohorty pacientů, u kterých chceme posoudit vliv vybraných anamnestických faktorů na časný relaps nemoci. Takto separátně odhadnuté hodnoty RR je možné vzájemně srovnat, a posoudit tak shodu výsledku v různých kohortách a v případě shody i možnost spojení obou souborů dat.
V retrospektivní populační studii zkoumáme vliv několika faktorů na vznik nemoci a chceme vzájemně porovnat jejich „sílu“, resp. sílu jejich asociace s cílovou rizikovou událostí (nemoc). Vzájemné statistické srovnání odhadů OR umožní jednotlivé faktory lépe diferencovat z hlediska jejich rizikovosti.

Ve všech výše uvedených příkladech lze srovnávané odhady OR i RR zakreslit do zvláštního typu grafu (tzv. forest plot), který zobrazuje bodové odhady RR či OR jako body, jejich intervaly spolehlivosti jako horizontální úsečky a také vyznačuje referenční hodnotu 1. Ukázky takových srovnání, tabulkových i grafických, přinášejí příklady 1 a 2. V obou příkladech hodnocení končí konstatováním významné heterogenity výstupů nezávisle provedených studií, z čehož plyne, že jejich závěry z důvodu nekonzistence nelze zobecnit. Použité grafické srovnání odhadů OR a RR zjednodušuje čtení výsledků, zvláště pokud je srovnávaných dílčích studií větší počet. Dalším formám a aplikacím forest plotu se budeme věnovat v příštím díle seriálu.

Příklad 1. Výpočet a grafické srovnání více odhadů relativního rizika (<em>RR</em>). — **Příklad 1. Výpočet a grafické srovnání více odhadů relativního rizika (RR).**

Příklad 2. Výpočet a grafické srovnání více odhadů poměru šancí (<em>OR</em>). — **Příklad 2. Výpočet a grafické srovnání více odhadů poměru šancí (OR).**

Možnost grafického srovnání pomocí intervalů spolehlivosti je lákavá a zjednodušuje práci, ne vždy však jako závěr studie stačí. Zejména posuzování výsledků různých klinických studií velmi často požaduje srovnání různých odhadů OR nebo RR pomocí statistického testu a posouzení významnosti rozdílu na dané hladině významnosti. Ukázku takového testu pro srovnání dvou odhadů OR nebo RR přinášejí příklady 3 a 4. Výpočetně se jedná o to, že srovnávané odhady OR a RR jsou normalizovány logaritmickou transformací, přičemž následný statistický test logicky vyústí ve statistiku se standardizovaným normálním rozdělením (tzv. z-statistiku).

Příklad 3. Testování statistické významnosti rozdílu mezi dvěma odhady poměrů šancí (<em>OR</em>). — **Příklad 3. Testování statistické významnosti rozdílu mezi dvěma odhady poměrů šancí (OR).**

Příklad 4. Testování statistické významnosti rozdílu mezi dvěma odhady relativního rizika (<em>RR</em>). — **Příklad 4. Testování statistické významnosti rozdílu mezi dvěma odhady relativního rizika (RR).**

Výpočetní postup srovnání dvou odhadů OR nebo RR v příkladech 3 a 4 je totožný, neboť jde o poměrové ukazatele odvozené na stejné bázi, tedy ze čtyřpolní tabulky četností. O aplikaci OR nebo RR totiž nerozhoduje statistický test, ale typ studie: OR je odhadnuto v případě retrospektivního sběru dat a RR u prospektivní studie. Aplikovaný statistický test také není ničím novým, zcela stejný postup se využívá například při testování rozdílu dvou odhadů střední hodnoty pomocí aritmetického průměru (tzv. t-test pro dva nezávislé výběry). Jde o obecný postup uplatnitelný pro hodnocení statistického významu rozdílů v odhadech všech statistik, které mají normální rozdělení. Rozdíl srovnávaných bodových odhadů příslušné statistiky je vztažen na standardní chybu (SE) tohoto rozdílu:

Z výsledků příkladů 3 a 4 lze dále vyvodit několik velmi důležitých poznatků:

Vzájemně lze statisticky srovnávat i odhady OR a RR, které samy o sobě nejsou statisticky významné. I statisticky nevýznamné odhady, tedy takové, jejichž interval spolehlivosti obsahuje hodnotu 1, se mohou vzájemně statisticky významně lišit. A naopak, statisticky významná hodnota OR či RR se nemusí významně odlišovat od hodnoty, která sama statisticky významná není. To je výstup příkladu 3, kde hodnota OR₁ je statisticky významná, hodnota OR₂ naopak není a oba odhady se navíc statisticky významně neliší (p = 0,115).
Výsledek statistického testu je silně závislý na velikosti vzorku a na zastoupení jednotlivých variant v původní tabulce četností. V praxi nejsou výjimkou výpočty, jejichž výsledkem je velmi hraniční zamítnutí nebo naopak potvrzení nulové hypotézy. Takový výsledek zde nabízí příklad 4, kde nezamítáme nulovou hypotézu o rovnosti dvou odhadů RR při p = 0,051. Tento typ výsledku by měl vždy nabádat k velmi opatrné interpretaci s ohledem na možnost zkreslení.

Nespornou výhodou zde doporučeného testu srovnávajícího odhady OR nebo RR je jeho jednoduchost. Pokud již máme k dispozici provedené odhady OR a RR, lze výpočet snadno provést i bez pomoci počítače. Snadná aplikovatelnost má ale i své stinné stránky; všimněme si, že do testu lze vstoupit přímo již s bodovým odhadem a jeho intervalem spolehlivosti. Pokud tedy tyto hodnoty máme, například z publikované práce jiného autora, můžeme ihned srovnávat. Pro výpočet testové statistiky nemusíme mít k dispozici původní data z tabulky četností, dokonce ani nemusíme znát velikost souborů, ze kterých jsou srovnávané hodnoty OR či RR odhadovány. Tyto skutečnosti mohou být zdrojem velmi vážných zkreslení, zvláště při následném srovnávání výsledků již publikovaných prací. Zejména je třeba kontrolovat, zda:

srovnávané odhady OR a RR pocházejí ze studií se srovnatelným designem (např. zda obě takto srovnávané studie jsou prospektivní, nebo retrospektivní),
jsou oba srovnávané odhady OR nebo RR vzájemně nezávislé, a pocházejí tedy z nezávislých studií,
zdrojové soubory generující srovnávané odhady OR a RR nejsou zásadně jinak velké,
prevalence sledované události není zásadně odlišná v obou souborech dat, ze kterých byly odhadnuty srovnávané hodnoty OR nebo RR.

Všechny výše uvedené rozdíly mezi srovnávanými studiemi nebo výběrovými populacemi jedinců mohou narušovat věcnou srovnatelnost odhadů OR a RR. Například pokud bychom postupem v příkladě 3 srovnávali proti sobě dvě hodnoty OR, které jsou spočítány z věcně nesrovnatelných studií, je i sebelepší statistický test předem diskvalifikován. Obdobně statistické srovnání hodnot obou ukazatelů odhadnutých ze zcela odlišných výběrů nebo populací může vést k velmi zkresleným závěrům. Přitom ale matematické vztahy umožňují takto nesrovnatelné odhady OR a RR dosadit a výpočet realizovat! Opět se setkáváme se skutečností, že znalosti a pozornost odborníka, který podstatě zkoumaného problému rozumí, jsou nenahraditelné. Zvláště u asociačních studií je nutné se přesvědčit, zda srovnáváme srovnatelné.

Ačkoliv by se mohlo zdát, že vysvětlením testů v příkladech 3 a 4 problematika srovnávání různých odhadů OR a RR v našem seriálu končí, zdaleka tomu tak není. Tyto testy totiž řeší pouze srovnání dvou vzájemně nezávislých odhadů, resp. výstupů dvou vzájemně nezávislých asociačních studií. Avšak nemůžeme opomenout vzájemné srovnávání výstupů více než dvou studií, které je v klinickém výzkumu rovněž zcela běžné. Hovoříme o testování homogenity více odhadů OR nebo RR. Typicky takto posuzujeme míru shody různých mezinárodních studií zaměřených na stejný problém, s cílem jejich výsledky zobecnit (pokud se shodují) anebo rozporovat (pokud jsou statisticky významně rozdílné). Tyto statistické postupy patří do oblasti tzv. metaanalýz klinických studií, které obecně definujeme jako postupy založené na statistické kombinaci výstupů již dříve publikovaných výsledků klinických studií. Věrohodnost těchto „nadstavbových“ analýz ovšem zásadně závisí na kvalitě srovnávaných studií a rovněž na správném statistickém srovnávání jejich výsledků. Metodice srovnávání mnohočetných odhadů OR a RR budeme věnovat příští díly seriálu.

doc. RNDr. Ladislav Dušek, Dr.

Institut biostatistiky a analýz

MU, Brno

e-mail: dusek@cba.muni.cz