Výklad - regrese: Koeficient determinace

Koeficient determinace

Po výpočtu regresních koeficientů a, b je ještě dobré ověřit, zda vypočtený jednoduchý lineární model (tedy přímka daná parametry a, b) skutečně ukazuje trend daný daty. Proto je vždy vhodné data ještě graficky znázornit. Tak snadno odhalíme, zda se nejedná o závislost úplně jiného druhu než jednoduchou lineární.

Pro numerické vystižení těsnosti závislosti se používá koeficient determinace. Jeho definice je založena na postupu, který se nazývá rozklad součtu čtverců.

Základem je teoretický model Y = α + β x + ε. Parametry modelu odhadujeme tak, že nejprve pro zadané hodnoty x_inaměříme hodnoty y_i a metodou nejmenších čtverců vypočteme odhady a, b neznámých parametrů α , β. Tím dostaneme funkci a + bx, která je odhadem funkce α + β x. Body na přímce a + bx_i nazýváme vypočtené hodnoty a označíme v_i= a + bx_i_.

Z vypočtených hodnot v_i spočítáme průměr a označíme jej

Bude nás zajímat také rozdíl d_i naměřených a vypočtených hodnot.

d_i= y_i - v_i= y_i- a - bx_i. Rozdíly d_ijsou rozdíly, jejichž součet čtverců jsme minimalizovali.

Ať y_ivzniklo z jakéhokoliv modelu, můžeme vypočítat průměr

Z naměřených hodnot a jejich průměru lze spočítat součet čtverců odchylek od průměru, neboli součet čtverců úplný,

Ten je zajímavý proto, že se dá rozložit na dva sčítance. První sčítanec je součet čtverců odchylek vypočtených hodnot v_i od jejich průměru. Tento součet se nazývá součet čtverců regresní,

Přitom je důležité, aby v_ibyla vypočtena metodou nejmenších čtverců.

Druhý sčítanec je součet čtverců odchylek d_i(tj. rozdílů naměřených a vypočtených hodnot). Víme, že metoda nejmenších čtverců zajišťuje, že součet odchylek je nulový Σd_i= 0 , tudíž $\bar{d}=\sum d_i/N=0$ . Tento součet čtverců odchylek se nazývá chybový

Rozklad součtu čtverců odchylek se dá psát takto

SCU = SCR + SCC.

Můžeme se nyní zeptat, jakou část součtu čtverců úplného je možné přisoudit regresní přímce a jakou část je možné přisoudit odchylkám. To můžeme měřit pomocí poměru

R² = SCR/SCU, který se nazývá koeficient determinace.

Jestliže čitatele i jmenovatele dělíme číslem (N-1) dostáváme v čitateli rozptyl vypočtených hodnot S_v²= SCR/(N-1) a ve jmenovateli rozptyl hodnot závisle proměnné S_y²= SCU/(N-1). Čili R²= S_v² / S_y². Když navíc tento podíl uvedeme v procentech, což je běžným zvykem, nazýváme koeficient determinace procentem vysvětleného rozptylu.

Z definice vidíme, že koeficient determinace je vždy nezáporný a nejvýše roven jedné 0 ≤ R²≤ 1. Pokud regresní přímka přesně vystihuje všechny body [x_i, y_i], tj. všemi body [x_i, y_i] prochází, je koeficient determinace roven jedné, neboť Σd_i= 0 a rozklad součtu čtverců dává SCU = SCR.

V praktických příkladech se pokládá koeficient determinace za dostatečně vysoký, když je v horní čtvrtině intervalu <0;1>, tedy přesahuje 0,75. To znamená, že více než tři čtvrtiny rozptylu jsou vysvětleny regresí, zbývající čtvrtina rozptylu je způsobena chybami d_i.