Výklad - chrarakteristiky polohy dat: Definice a vlastnosti mediánu

Definice a vlastnosti mediánu

Pořádkové charakteristiky
Když máme k dispozici N čísel x₁, x₂,…, x_N, můžeme na ně získat lepší pohled, když je setřídíme podle velikosti vzestupně. Získáme množinu stejných čísel, jen v jiném pořadí. Tato čísla označujeme x₍₁₎, x₍₂₎,…, x_(N) a nazýváme je pořádkové statistiky nebo pořádkové charakteristiky. Indexy v závorkách označují pořadí. Například nejmenším číslem je x₍₁₎ (vhodné čtení je x první - na rozdíl od x₁, což čteme x jedna), druhé nejmenší číslo je x₍₂₎, největší číslo je x_(N), druhé největší je x_(N-1).

Medián
Medián je prostřední hodnota z čísel uspořádaných podle velikosti. Medián je uprostřed v tom smyslu, že zbývající čísla je možné rozdělit na dvě skupiny o stejném počtu prvků, z nichž čísla z první skupiny jsou menší nebo rovna mediánu a čísla z druhé skupiny jsou větší nebo rovna mediánu.
Přesnou definici je třeba udělat zvlášť pro lichý a zvlášť pro sudý počet hodnot. Formálně vypadají definice takto:
Je-li N > 1 liché, je mediánem hodnota x_((N+1)/2)^.
Je-li N sudé, je mediánem hodnota (x_(N/2) + x_(N/2+1) )/2

Tyto vzorce se těžko pamatují, ale dají se snadno odvodit pro malá N.
Začneme s N = 3 a hned vidíme, že prostřední hodnota je ta druhá podle velikosti. To dostaneme následujícím způsobem: (3+1)/2 = 4/2 = 2. Tímto způsobem je možné si odvodit či zkontrolovat vzorec.
Pro N sudé zkusíme N = 4. Jenže pro sudý počet můžeme rozdělit hodnoty podle velikosti přesně na dva stejné díly o N/2 prvcích. Pro výpočet mediánu vezmeme dvě prostřední hodnoty a tím dostáváme interval

<x_(N/2) ;x_(N/2+1) >.

Jako medián volíme střed tohoto intervalu. Tímto středem je průměr krajních hodnot, tedy číslo

(x_(N/2) + x_(N/2+1₎)/2.
Pro N = 4 máme po setřídění x₍₁₎, x₍₂₎, x₍₃₎, x₍₄₎. Interval uprostřed je tvořen druhou a třetí hodnotou, tedy prvky x₍₂₎ a x₍₃₎. Tyto prvky můžeme zapsat jako x_(4/2) a x_(4/2+1). Střed intervalu pak je průměr (x₍₂₎ + x₍₃₎ )/2.

Uveďme si nyní dva konkrétní příklady:
Příklad 1:
Nejprve zvolíme lichý počet čísel N = 7.
Máme určit medián pro čísla 7,2; 7,0; 7,4; 7,1; 7,8; 7,2; 7,3. Nejprve je uspořádáme podle velikosti vzestupně 7,0; 7,1; 7,2; 7,2; 7,3; 7,4; 7,8. Vypočteme (N+1)/2 = (7+1)/2 = 4, což dává index pro pořádkovou charakteristiku x₍₄₎ = 7,2.

Příklad 2:
Nyní volíme sudý počet čísel N=8 9,2; 9,8; 9,9; 8,3; 8,8; 8,1; 9,7; 9,0 a máme určit medián. Po uspořádání dostaneme 8,1; 8,3; 8,8; 9,0; 9,2; 9,7; 9,8; 9,9. Vidíme, že čísla uprostřed jsou dvě: 9,0 a 9,2.
Podle vzorce x_(N/2) =9,0 a x_(N/2+1)=9,2

Tato čísla tvoří interval <9,0; 9,2>, jehož středem je číslo 9,1.

Podle vzorce je (x_(N/2) + x_(N/2+1₎)/2=(9,0+9,1)/2=9,1

Pro pochopení definice je dobré si jako cvičení zkontrolovat, že medián skutečně rozděluje zadané hodnoty na dvě stejně velké skupiny, které mají požadované vlastnosti.

Metody výpočtu mediánu
Jako první se nabízí postup, při kterém nejdříve setřídíme hodnoty podle velikosti vzestupně a pak snadno vybereme jednu nebo dvě prostřední podle toho, zda jde o sudý nebo lichý počet čísel. Tak to jde lehce na počítači, ale ručně bez obtíží setřídíme jen malý počet čísel, pro velký počet není tento postup příliš vhodný. Obvykle za nás medián počítá počítač, tudíž ruční třídění je vhodné jen pro procvičení.
Způsobů třídění je mnoho. Takovým jednoduchým způsobem může být vybrání té nejmenší hodnoty z řady čísel, její označení třeba podtržením a opsání na jiný řádek. Poslední zbývající hodnota je ta největší. Pro kontrolu je vždy dobré zkontrolovat počty čísel původních a setříděných.

Po setřídění vybereme jednu, případně dvě prostřední hodnoty podle toho, zda máme sudý nebo lichý počet hodnot.

Na jakémkoliv příkladě je možné si ověřit, že prostřední hodnoty jsou stejné, když odstraníme nejmenší a největší hodnotu, tedy "okrajový" pár. Toho je možné využít k výpočtu tak, že najdeme číslo nejmenší a číslo největší, odstraníme je a pokračujeme v tom tak dlouho až zbude jen jedno případně dvě čísla, která jsou zřejmě ta prostřední a to jsou pravě čísla potřebná k výpočtu mediánu.

Vlastnosti mediánu
Je zřejmé, že medián je rovněž mírou polohy, avšak v jiném smyslu než průměr. Pro označení mediánu se obvykle používá vlnovka neboli tilda.
Je-li dáno N čísel x₁, x₂,…, x_N a ke každému je přičtena stejná konstanta a, takže y_i = x_i + a , pak platí $\tilde y$ = $\tilde x$ + a.
Je to proto, že i pro setříděné hodnoty y₍₁₎, y₍₂₎,…, y_(N) platí, že y_(i)=x_(i)+a

Přičtením konstanty se totiž pořadí nezmění.
Dále pro liché N platí y_((N+1)/2) = x_((N+1)/2) + a
Pro sudé N je vysvětlení stejné.

Podobně se ukáže, jak se medián změní vynásobením hodnot nějakou konstantou. Jestliže je konstanta b kladná, pořadí se po vynásobení nezmění, čili když y_i = bx_i , platí také y_(i)=bx_(i)

Pak je jasné, že pro liché N platí y_((N+1)/2) = bx_((N+1)/2).
Obdobně se tato vlastnost ukáže pro N sudé.
Pokud je ale b záporné, je po setřídění pořadí opačné. Tedy pro b<0 a platí: y_(i)=bx_(N-i+1), což není nic jiného než zápis opačného pořadí. Jenže také při opačném pořadí jsou prostřední hodnoty zase prostřední a tudíž medián je stejný. Formálně platí pro liché N, že y_((N+1)/2) = bx_((N+1)/2),
protože y_((N+1)/2)= bx_{(N-(N+1)/2+1)}=bx_{((2N-N-1+2)/2)}=bx_((N+1)/2). Dá se to říci i tak, že u mediánu nezáleží na tom, jestli jsou čísla tříděna podle velikosti vzestupně nebo sestupně. Jinak tomu může být samozřejmě u jiných charakteristik založených na pořádkových charakteristikách.
Podobně jako u průměru, můžeme i u mediánu zjistit, že při y_(i)=bx_(i)+a platí $\tilde y$ = b $\tilde x$ + a.. Medián má tedy, jako míra polohy, tuto důležitou vlastnost.

Odlehlé hodnoty
Stává se, že se do souboru dostanou čísla, která se od ostatních nápadně liší. Někdy na první pohled vidíme, že jsou příliš velká nebo příliš malá. Důvodů k tomu, že vyjdou taková čísla může být víc.

Jedním z nich je překlep. Chci třeba zapsat na počítači výšku člověka 174 cm a omylem zapíši 17 cm nebo jindy 1174 cm. Chyba se může vloudit i selháním měřícího zařízení. Častým důvodem je i nehomogenita a špatná definice populace. Neřekne-li se jasně, že se jedná o populaci dospělých jedinců, může se vloudit i dítě s výškou 74 cm.
Všeobecně platí, že se nesmí vyhodit hodnoty, které se experimentátorovi nelíbí. Pokud najdeme nějakou netypickou hodnotu, musíme nejprve zjistit, jak se do zkoumání dostala. Překlep se jednoduše opraví, ale někdy jsou důvody výskytu odlehlých hodnot složitější, například zmíněná definice populace. Hodnota se může vyhodit, až když víme, kde se stala chyba.

Medián má ve srovnání s průměrem tu výhodu, že není tak citlivý na výskyt odlehlých hodnot. Představme si, že medián vypočítáváme tak, že postupně odstraňujeme páry nejmenších a největších hodnot. Pokud se vyskytne číslo, které je podstatně větší než ostatní čísla, je odstraněno jako první a dále už ztrácí vliv. V případě, že se jedná o příliš velkou odlehlou hodnotu, mohly nastat dvě situace. Správná hodnota, místo které vznikla ta odlehlá, by byla větší než medián, to znamená, že by byla odstraněna později, čili na velikost mediánu nemá chyba žádný vliv. Kdyby správná hodnota, místo které vznikla ta odlehlá, by byla menší než medián, ale chybou se stává největší, odstraníme ji jako hodnotu větší než medián, tím se ale pozice prostřední hodnoty mění a jako medián můžeme chybně dostat hodnotu vyšší.

Když tyto úvahy shrneme, získáme představu, že jednou chybou se medián podstatně nemění. To je důležitá vlastnost mediánu. Průměr tuto přednost nemá - můžeme se o tom přesvědčit na příkladech.