Koeficient determinace

Po výpočtu regresních koeficientů a, b je ještě dobré ověřit, zda vypočtený jednoduchý lineární model (tedy přímka daná parametry a, b) skutečně ukazuje trend daný daty. Proto je vždy vhodné data ještě graficky znázornit. Tak snadno odhalíme, zda se nejedná o závislost úplně jiného druhu než jednoduchou lineární.


Pro numerické vystižení těsnosti závislosti se používá koeficient determinace. Jeho definice je založena na postupu, který se nazývá rozklad součtu čtverců.


Základem je teoretický model Y = α + β x + ε. Parametry modelu odhadujeme tak, že nejprve pro zadané hodnoty xi naměříme hodnoty yi a metodou nejmenších čtverců vypočteme odhady a, b neznámých parametrů α , β. Tím dostaneme funkci a + bx, která je odhadem funkce α + β x. Body na přímce a + bxi nazýváme vypočtené hodnoty a označíme vi = a + bxi.

Z vypočtených hodnot vi spočítáme průměr a označíme jej



Bude nás zajímat také rozdíl di naměřených a vypočtených hodnot.

di = yi - vi = yi - a - bxi . Rozdíly di jsou rozdíly, jejichž součet čtverců jsme minimalizovali.


yi vzniklo z jakéhokoliv modelu, můžeme vypočítat průměr



Z naměřených hodnot a jejich průměru lze spočítat součet čtverců odchylek od průměru, neboli součet čtverců úplný,



Ten je zajímavý proto, že se dá rozložit na dva sčítance. První sčítanec je součet čtverců odchylek vypočtených hodnot vi od jejich průměru. Tento součet se nazývá součet čtverců regresní,



Přitom je důležité, aby vi byla vypočtena metodou nejmenších čtverců.


Druhý sčítanec je součet čtverců odchylek di (tj. rozdílů naměřených a vypočtených hodnot). Víme, že metoda nejmenších čtverců zajišťuje, že součet odchylek je nulový Σdi = 0 , tudíž \bar{d}=\sum d_i/N=0. Tento součet čtverců odchylek se nazývá chybový



Rozklad součtu čtverců odchylek se dá psát takto

SCU = SCR + SCC.

Můžeme se nyní zeptat, jakou část součtu čtverců úplného je možné přisoudit regresní přímce a jakou část je možné přisoudit odchylkám. To můžeme měřit pomocí poměru

R2 = SCR/SCU, který se nazývá koeficient determinace.

Jestliže čitatele i jmenovatele dělíme číslem (N-1) dostáváme v čitateli rozptyl vypočtených hodnot Sv2 = SCR/(N-1) a ve jmenovateli rozptyl hodnot závisle proměnné Sy2 = SCU/(N-1). Čili R2 = Sv2 / Sy2. Když navíc tento podíl uvedeme v procentech, což je běžným zvykem, nazýváme koeficient determinace procentem vysvětleného rozptylu.



Z definice vidíme, že koeficient determinace je vždy nezáporný a nejvýše roven jedné 0 ≤ R2 1. Pokud regresní přímka přesně vystihuje všechny body [xi, yi], tj. všemi body [xi, yi] prochází, je koeficient determinace roven jedné, neboť Σdi = 0 a rozklad součtu čtverců dává SCU = SCR.

V praktických příkladech se pokládá koeficient determinace za dostatečně vysoký, když je v horní čtvrtině intervalu <0;1>, tedy přesahuje 0,75. To znamená, že více než tři čtvrtiny rozptylu jsou vysvětleny regresí, zbývající čtvrtina rozptylu je způsobena chybami di .