Výklad - neparametrické testy: Pořadové testy

Pořadové testy

Další skupinou neparametrických testů jsou tzv. pořadové testy (ranking, order tests). Jsou založeny na tom, že data veličin, které testujeme, uspořádáme většinou vzestupně podle hodnot, která ta data mají. Po tomto uspořádání dat přiřadíme každému vstupnímu údaji pořadové číslo. V případě, že se za sebou vyskytuje několik stejných hodnot, dostanou tyto hodnoty stejné pořadové číslo a následující vyšší hodnota ve vstupních datech dostane pořadové číslo, které odpovídá celkovému pořadí. Pro ilustraci uveďme soubor bodů, které v přijímacím testu z biologie dosáhlo deset studentů náhodně vybraných z populace přijatých:

body

1594

1169

1275

1381

1594

1169

1275

2125

2019

Data přeneseme do Excelu (označíme předešlou tabulku, pomocí Ctrl+C ji uložíme do schránky, otevřeme Excel a zkopírujeme do prvního řádku). Příslušná pořadová čísla dosažených bodů získáme pomocí funkce RANK. Po napsání rovnítka do volné buňky v řádku pod prvním údajem (tedy do buňky B2) klikneme na ikonu funkce (f_x) a ze statistických funkcí vybereme právě tuto. Když ji potvrdíme, objeví se okno Argumenty funkce, ve kterém jsou 3 řádky. První je označen Číslo, druhý řádek Odkaz a třetí Pořadí. Do řádku Číslo vložíme první číslo z vstupních dat. Do druhého řádku pořadí vložíme celý sloupec s daty, ve kterém zjišťujeme pořadí. Před písmena, která označují vektor, v němž zjišťujeme pořadí, dáme symbol $, aby při automatickém rozšíření na všechny buňky daného řádku nedocházelo ke změně hodnot buněk vstupního vektoru. Do posledního řádku Pořadí napíšeme jedničku, čímž dosáhneme toho, že pořadová čísla jsou podle vzestupně seřazených dat (není nutné provést nejprve třídění podle velikosti). Výsledkem je řádek:

rank

Pro pořadové testy je tento výsledek nutné ještě dále upravit tak, že v případě, že se objeví stejná hodnota několikrát, tak sečteme pořadí po sobě jdoucích čísel a vydělíme je počtem sčítanců (v uvedeném případě se vyskytuje hodnota 1 dvakrát, takže 1+2 = 3, děleno 2 je 1,5; hodnota 3 se vyskytuje třikrát, takže 3+4+5 = 12, děleno 3 jsou 4). Výsledkem jsou nová pořadová čísla:

zlomkové pořadí

7,5

1,5

7,5

1,5

Nejstarším pořadovým testem je neparametrická obdoba Pearsonova koeficientu korelace, Spearmanův korelační koeficient, podle autora označovaný ρ. To je v rozporu s dříve přijatou zásadou, že řeckými písmeny označujeme charakteristiky populační, a proto se často pro tento korelační koeficient používá symbol r_s. Touto konvencí se budeme řídit i my. Používá se v případech, kdy chceme zjistit, zda existuje vztah mezi dvěma proměnnými, které v případě, že jsou spojité, nemají Gaussovo rozdělení, nebo jsou to data ordinální.

Hodnotu Spearmanova korelačního koeficientu r_svypočteme obdobně jako hodnotu Pearsonova korelačního koeficientu r (v Excelu pomocí funkce CORREL), jestliže vstupní data uspořádáme vzestupně nebo sestupně. Spearmanův korelační koeficient leží, stejně jako Pearsonův, v intervalu <-1; +1> a interpretace jeho hodnoty je stejná.

Jako příklad uvedeme zjištění souvislosti výsledků testů z biologie s celkovým pořadím jednotlivců ve stejné populaci, kterou jsme definovali výše. Celkové pořadí jedinců ve stejném výběru je:

Pořadí 129 143 34 82 67 123 95 125 2 4

což po uspořádání odpovídá:

Uspořádání 9 10 3 5 4 7 6 8 1 2

Hodnota r_s= −0,661. V Excelu se ve funkci CORREL nepočítá p-hodnota, odpovídající dané hodnotě r_s. Pokud bychom neprovedli uspořádání obou vstupních proměnných a nesprávně počítali r, výsledek bude jiný (r = −0,766, zdánlivě (nesprávně) významnější.

Neparametrickou variantou nepárového t-testu je Mannův-Whitneyův U test. Stejně jako Spearmanův test pořadové korelace ho používáme v případě dat negaussovských a ordinálních.

V prvním kroku sloučíme hodnoty obou srovnávaných proměnných a provedeme jejich uspořádání. Potom sečteme pořadí v prvním vzorku a označíme ho jako R. Testové kritérium U se vypočte jako

$U = R - \frac{{n_1 (n_1 + 1)}}{2}.$

Hodnoty pravděpodobností pro U rozdělení (přibližně pro n₁ + n₂ ≤ 20) lze nalézt v tabulkách, pro větší počet pozorování se p-hodnota počítá z aproximace rozložení Gaussova.

Chceme určit účinnost nového analgetika na bolesti drobných kloubů. Náhodně vybraným pacientům v jedné skupině podáváme lék, v druhé skupině dostávají pacienti placebo. Po uplynutí čtrnácti dnů pacienty požádáme, aby posoudili zmenšení bolestí na stupnici od 0 do 10 (0 – žádná úleva, 10 – bolesti zcela ustoupily). Výsledky jsou v tabulce:

Placebo 10 1 0 2 0 4 5 3 1 3 4

Lék 10 10 5 8 4 3 1 0 2 9

Uspořádané hodnoty jsou:

Placebo	20	5	2	7,5	2	13	15,5	10	5	10	13
Lék	20	20	15,5	17	13	10	5	2	7,5	18

Hodnota U = 73, což odpovídá z skóru −1,23 a pro jednostrannou alternativní hypotézu (apriorně předpokládáme, že lék tlumí bolest) p hodnotě 0,1093. Znamená to, že na hladině významnosti α = 0,05 nezamítáme nulovou hypotézu a prohlásíme, že se nepodařilo prokázat (statisticky významnou) účinnost nového analgetika.