Výklad - chrarakteristiky polohy dat: Definice a vlastnosti aritmetického průměru

Definice a vlastnosti aritmetického průměru

O průměru jsme se učili všichni již na základní škole a od té doby mu věříme a používáme ho. Abychom ale byli schopni si jeho základní vlastnosti odvodit, nevystačíme s definicí jako sečteme a vydělíme, musíme si zavést symbol pro součet a naučit se s ním pracovat.

Když máme hovořit o $n$ prvcích, můžeme je označit $x_1, x_2, \ldots , x_n$ Tři tečky se čtou "až do". To znamená, že každému z čísel $1, 2,$ až do $n$ přiřadíme nějaký prvek. Těm se pak říká indexované prvky. Když jsou to čísla, tak indexovaná čísla, když jsou to proměnné, hovoříme o indexovaných proměnných. To samé někdy zapisujeme jako $x_i,$ kde $i$ jde od $1$ do $n.$

Jednoduchým příkladem může být vyjádření, že $x_i$ označuje čísla od jedné do sta. Zapíšeme to jako $x_i=i,$ kde $i=1, 2, \ldots ,100.$ Sudá čísla od dvou do sta zapíšeme jako $x_i=2i,$ kde $i=1, 2, \ldots , 50.$

Představme si, že označíme nějaká čísla pomocí symbolů $x_i,$ kde $i=1, 2, \ldots , n,$ kde $n$ je jejich počet. Označit jejich součet je možné dvěma způsoby. $x_1+x_2+\ldots +x_n$ je naznačení jejich vyjmenování, ale to samé je vhodnější zapsat jako $\sum_{i=1}^{n} x_i.$ Pro symbol součtu neboli sumy se tedy používá velké řecké písmeno sigma. Celý výraz se čte suma od $i$ rovno jedné do $n$ čísel $x_i.$ Jako příklad zapíšeme součet sudých čísel od dvou do sta jako $\sum_{i=1}^{50} 2i.$ Když jsou dána čísla $y_1=1,$ $y_2=3,$ $y_3=2,$ $y_4=4$ a $y_5=5,$ můžeme psát $\sum_{i=1}^{5} y_i=$ $y_1+y_2+y_3+y_4+y_5=$ $1+3+2+4+5=15.$ Součet s jinými mezemi je $\sum_{i=2}^{4} y_i=$ $y_2+y_3+y_4=$ $3+2+4=9.$ Součet druhých mocnin je

$\sum_{i=1}^{5} y_i^2=$ $y_1^2+y_2^2+y_3^2+y_4^2+y_5^2=$ $1^2+3^2+2^2+4^2+5^2=55.$

Avšak pozor na $(\sum_{i=1}^{5} y_i)^2=$ $(y_1+y_2+y_3+y_4+y_5)^2=$ $(1+3+2+4+5)^2=$ $15^2=225.$ Jestliže opakovaně sčítáme nějakou konstantu $a$ třeba $K$ krát, zapíšeme to jako $K$ sčítanců $a+a+\ldots +a=$ $\sum_{i=1}^{K} a=Ka.$ Jak je vidět, je snadné pomocí symbolu pro součet zapsat zákon komutativní, distributivní a asociativní. Například pomocí komutativního zákona pro sčítání platí $\sum_{i=1}^{n}(x_i+y_i)=$ $\sum_{i=1}^{n}x_i+\sum_{i=1}^{n}y_i,$ protože $(x_1+y_1)+$ $(x_2+y_2)+\ldots +(x_n+y_n)=$ $x_1+x_2+\ldots +x_n+$ $y_1+y_2+\ldots +y_n=$ $\sum_{i=1}^{n}x_i+$ $\sum_{i=1}^{n}y_i.$

Podobně, jestliže $a$ je konstanta, platí

$\sum_{i=1}^n ax_i=$ $a\sum_{i=1}^n x_i.$ .

Obecnější vzorec je

$\sum_{i=1}^n (ax_i-b)=a(\sum_{i=1}^{n} x_i) -nb.$ .

Součet byl dán do závorky, protože někdy není jasné, co patří součtu a co ne.

Aritmetický průměr jako míra polohy

Když je dáno $n$ čísel $x_1, x_2, \ldots , x_n,$ je vzorec pro průměr $\bar x = (1/n)\sum_{i=1}^n x_i.$ Pruhem nad symbolem pro čísla se označuje jejich průměr. Kdybychom označili nějaká čísla písmenem $y_i,$ pak jejich průměr bychom značili $\bar y.$ Protože při počítání průměrů je jasné, jaké meze se vyskytují v symbolu pro součet, je obvyklé je vynechávat. Zrychlí se tím psaní a zlepší se čitelnost. Když ke každé hodnotě $x_i$ přičteme tutéž konstantu $a,$ dostaneme $y_i=x_i+a.$ Pro průměry platí vztah $\bar y = \bar x +a,$ neboť $\bar{y}= (1/n)\sum y_i=(1/n)\sum (x_i+a)=$

$(1/n)\sum x_i +(1/n)\sum a=\bar x +(1/n)na= \bar x+a.$ Porovnejme teploty ve stupních Celsia a v kelvinech. Právě jsme ukázali, že když $y_i=x_i+273,15,$ bude platit i pro průměry $\bar y =\bar x+273,15.$ Tato základní vlastnost průměru ukazuje, že průměr je velmi vhodný jako míra polohy. Přičtením nějakého čísla k datům se totiž průměr zvýší přesně o toto číslo. Když každou hodnotu $x_i$ vynásobíme stejnou konstantou $b,$ dostaneme $y_i=bx_i.$ Pro průměr pak platí $\bar y=b\bar x,$ neboť $\bar y=(1/n)\sum y_i=(1/n)\sum bx_i=$ $(1/n)b\sum x_i=b\bar x.$ Když udáváme délku $s$ v metrech a chceme ji v cm, platí $t_i=100s_i,$ kde $t$ je délka v cm, a tudíž pro průměry platí $\bar t =100\bar s.$ Když každou hodnotu $x_i$ vynásobíme stejnou konstantou $b$ a k výsledku přičteme stejnou konstantu $a,$ dostaneme $y_i=bx_i+a.$ Pro průměr pak platí $\bar y=b\bar x+a.$ Tento vztah se snadno oveří postupným použitím vztahů předchozích nebo jako cvičení rozepsáním součtů. Jestliže $C_i$ označují teplotu ve stupních Celsia a $F_i$ ve stupních Fahrenheita, je $F_i=(9/5)C_i+32$ a také $\bar F =(9/5)\bar C +32.$

Součet odchylek od průměru.

Nejprve se budeme zajímat, jaký je součet všech odchylek od průměru. Máme-li $n$ hodnot $x_i$ a jejich průměr $\bar x =(1/n)\sum x_i,$ budeme jako odchylku od průměru nazývat hodnotu $x_i-\bar x.$ Součtem odchylek je pak $\sum (x_i-\bar x).$ Ten lze napsat jako $\sum (x_i-\bar x)=\sum x_i-\sum \bar x=\sum x_i-n\bar x=$ $\sum x_i-n(1/n)\sum x_i=\sum x_i-\sum x_i=0.$ Takový výsledek říká hned několik věcí. Všechny odchylky se ruší a tudíž není možné součet odchylek použít jako míru variability. Jestliže si odchylky rozdělíme do skupin podle znaménka, to jest v první skupině budou odchylky záporné, ve druhé skupině budou odchylky kladné, případně ve třetí skupině odchylky nulové, pak součet všech odchylek kladných se všemi odchylkami zápornými dává nulu. Přesně v tomto smyslu je průměr někde uprostřed čísel, ze kterých je počítán, a rozděluje tato čísla na skupinu větší než průměr, skupinu menší než průměr a případně stejnou s průměrem. Je vhodný obrázek.

Průměr jako nevychýlený odhad (nepovinné)

Doposud jsme se zajímali o popisné vlastnosti výběru jako míry polohy. Nyní trochu odbočíme a ukážeme si vlastnost výběru, která nás opravňuje používat jej jako odhad průměru v celé populaci, když k dispozici je jen výběr. Snadno si představíme případ, kdy se populace skládá z velkého počtu prvků a nelze změřit hodnoty u všech prvků populace, abychom stanovili jejich průměr, neboli populační průměr. Statistika doporučuje, abychom provedli náhodný výběr. Z tohoto výběru pak stanovíme výběrový průměr a pomocí tohoto výběrového průměru odhadneme populační průměr. Říká se, že výběrový průměr je odhadem populačního průměru. Přesný populační průměr se nikdy nedovíme, to je pro nás jakási teoretická hodnota, kterou se snažíme odhadnout pomocí výběrového průměru, protože víme, že tento výběrový průměr bude přibližně roven populačnímu. Populační průměr přesně neznáme, máme jeho odhad. Co to ale znamená a proč si máme myslet, že výběrový průměr bude přibližně roven populačnímu? Není to jen proto, že nám nic jiného nezbývá. Chceme také vědět v jakém smyslu přibližně a co nás k tomu opravňuje. Začít se dá příkladem. Populace se skládá ze 4 prvků nabývajících hodnot 1, 3, 5, 6. Populační průměr je $\mu =(1+3+5+6)/4=3,75.$ Provádíme výběry bez vracení, neboli bez opakování, aby počítání bylo co nejjednodušší a počet výběrů malý. Jako velikost výběru volíme 3.

výběr			výběrový průměr
1	3	5	(1+3+5)/3=3
1	3	6	(1+3+6)/3=3,333
1	5	6	(1+5+6)/3=4
3	5	6	(3+5+6)/3=4,667

Ke každému výběru byl výběrový průměr zapsán do pravého sloupce, čili pro celkem čtyři výběry máme čtyři výběrové průměry. Vypočítáme nyní průměr těchto průměrů $(3+3,333+4+4,667)/4=3,75.$ .Je důležité si všimnout, že je přesně roven populačnímu průměru. Tento jev je to, co nás opravňuje odhadovat populační průměr pomocí výběrového průměru. Jestliže se zajímáme o průměrnou velikost erytrocytu pacienta, nelze změřit všechny jeho erytrocyty. Provedeme výběr. I když ani celkový počet erytrocytů pacienta neznáme, jejich populační průměr neznáme, použijeme výběrový průměr a jím odhadneme populační průměr. Jsme k tomu oprávněni, protože průměr všech výběrových průměrů je roven populačnímu. Tato důležitá vlastnost se nazývá nevychýlenost odhadu. V následujícím se ji pokusíme ukázat pro libovolnou velikost populace i výběru. V našem příkladě průměr z průměrů je možné vypočítat jako

$((1+3+5)/3+(1+3+6)/3+(1+5+6)/3 +(3+5+6)/3)/4=$

$(1+3+5+1+3+6+1+5+6+3+5+6)/(3\times 4).$

Důležité také je, že se číslo 1 opakuje třikrát a všechna další čísla také třikrát a je možné součet v závorce psát jako $(1\times 3+3\times 3+5\times 3+6\times 3)/(3\times 4))= 3\times (1+3+5+6)/(3\times 4)=(1+3+5+6)/4=3.75,$ což je populační průměr, jenže počítaný z výběrů trochu jinak. Na tomto příkladě bylo ukázáno, co můžeme očekávat obecně. Bylo by naivní si myslet, že někdo bude vytvářet velká množství náhodných výběrů, aby zjistil, že tento jev funguje i pro větší výběry. U velkých populací si můžeme jen představovat všechny možné výběry. Příklad byl zvolen proto, aby byl předem naznačen přístup, který umožňuje odvodit základní vlastnost výběrového průměru.

Nepovinná část. Pokusíme se tento jev zobecnit na libovolnou velikost populace $n_P>1$ a libovolnou velikost výběru $n,$ kde $0$ Jednotlivé prvky populace označme $y_1, y_2, \ldots , y_{n_P}.$ Při výběru bez vracení je celkový počet výběrů $n_V$ roven $n_V={{n_P}\choose {n}}.$ Jak je vidět na příkladě, každý prvek populace se vyskytuje ve stejném počtu výběrů. Obecně můžeme uvažovat tak, že si zvolíme libovolný prvek populace, tím v populaci zbývá jen $n_P-1$ prvků a do výběru je třeba přidat jen $n-1$ prvků. Ty vybíráme opět bez opakování a počet způsobů jakými je to možné provést je roven ${{n_P-1}\choose {n-1}}.$ Označme $\bar x_1, \bar x_2, \ldots , \bar x_{n_V}$ výběrové průměry, které jsou vypočtené z jednotlivých výběrů. Jejich počet je $n_V.$ K označení hodnot z výběrů použijeme dvojité indexování, $x_{ji}$ značí $i$ -tou hodnotu v $j$ -tém výběru. Výběry je možné si představit jako

$x_{11},x_{12}, \ldots x_{1n}$

$x_{21},x_{22}, \ldots x_{2n}$

$\ldots \ldots$

$x_{n_V1},x_{n_V2}, \ldots x_{n_Vn}.$

Je jich celkem $n_V,$ na prvním řádku je první výběr, na druhém řádku je druhý výběr a tak by to pokračovalo až do $n_V-$ tého řádku. Ke každému řádku si představíme výběrový průměr $\bar x_j$ a naším úkolem je nyní výpočítat průměr ze všech těchto výběrových průměrů, což je

$(1/n_V)(\sum_{j=1}^{n_V} \bar x_j)= (1/n_V)\sum_{j=1}^{n_V} (1/n)\sum_{i=1}^{n}x_{ji}.$

Je možné vytknout $(1/n)$ a dostaneme vzorec

$(1/(n_Vn))\sum_{j=1}^{n_V} \sum_{i=1}^{n}x_{ji},$

Víme ale, že každá hodnota z populace se vyskytuje ve výběrech stejně krát, je tedy možné psát tento výraz jako

$(1/(n_Vn))\sum_{K=1}^{n_P}y_K {{n_P-1}\choose {n-1}}= (\sum_{K=1}^{n_P}y_K){{n_P-1}\choose {n-1}}/(n_Vn).$

nyní je třeba ukázat, čemu se rovná ${{n_P-1}\choose {n-1}}/(n_Vn)=$ $\frac{{{n_P-1}\choose {n-1}}}{n{{n_P}\choose {n}}}=$ $\frac{(n_P-1)!n!(n_P-n)!}{n(n-1)!(n_P-1-n+1)!n_P!}=$ $\frac{(n_P-1)!n!(n_P-n)!}{n!(n_P-n)!n_P!}=$ $\frac{(n_P-1)!}{n_P!}= \frac{1}{n_P}$ Tím je důkaz téměř proveden. Nepočítá ale s tím, že by mohla některá čísla v populaci stejná. Pak by neplatilo, že se jich nachází ve výběrech stejný počet. To se dá ale velmi snadno odstranit tak, že u každého čísla si jako index poznamenáme, z kterého měření pochází, pak je počet výběrů daný prvky obsahujících stejný a všechno pokračuje tak, jak je naznačeno. Co víme je to, že výběrové průměry dávají v průměru populační průměr. To je důležitý pojem a ve statistice se mu říká nevychýlený odhad. O přesnosti zase moc nevíme a abychom ji mohli posoudit, museli bychom znát směrodatnou odchylku výběrových průměrů pro všechny výběry. To zase nejde, protože bychom museli vytvořit všechny výběry. Je možné provést výpočet pro jednoduchý příklad jako v naše případě, ale to je zase jen ilustrace a nic víc. Na ilustračním příkladě si můžeme snadno vypočítat pravděpodobnost, že výběrový průměr je přesně roven populačnímu. Výpočet se provede tak, že se zkontroluje, že výběrový průměr není roven populačnímu ani v jednom případě, že je tedy hledaná pravděpodobnost rovna nule. Obecně může být nenulová, avšak bude velmi malá. Jenže o to tu vůbec nejde, protože s tím, že se přesně nikdy hodnotu populačního průměru nedozvíme, se musíme smířit. Jde o to, že výběrový průměr je dobrým odhadem, někdy je větší než populační průměr, někdy menší, v průměru je mu ale roven.