Výklad - regrese: Jednoduchá lineární regrese

Jednoduchá lineární regrese

Předpokládejme, že spojitá náhodná veličina Y je vyjádřena jako funkce f(x) nějaké nezávislé veličiny x, která není náhodná a k níž musíme tedy přidat náhodnou veličinu ε, abychom ještě vystihli chybu měření, případně další náhodné vlivy. Model pak vypadá takto

Y = f(x) + ε .

Předpokládá se, že funkce f závisí ještě na nějakých parametrech, jinak by nebylo celkem co zkoumat. Model v nejobecnějším tvaru se tudíž zapíše následujícím způsobem:

Y = f(α, x) + ε ,

kde navíc α označuje neznámé parametry, které určují funkci f.

Rozlišujeme formálně dva typy regresních modelů: lineární a nelineární.

Lineární model se obecně zapisuje jako

Y = α₀ + α₁x₁ + α₂x₂ + α₃x₃ + … + α_nx_n+ ε ,

Kde x_1, x₂, x_3, …, x_n značí nezávisle proměnné, kterých je celkem n.

K jednotlivým proměnným patří regresní koeficienty α₁, α₂, α₃, …, α_n. Regresní koeficient α₀ se nazývá absolutní člen a nepatří k žádné nezávisle proměnné. Absolutní člen vyjadřuje posuv náhodné veličiny Y směrem k větším či menším hodnotám.

Pokud například Y závisí jen na dvou nezávisle proměnných, označíme je spíš jako X a Z a regresní koeficienty řeckými písmeny α , β, γ. Model potom má tvar

Y = α + β x + γ z + ε.

Jednoduchý lineární regresní model

Nejjednodušší je model, který má název jednoduchý lineární regresní model

Y = α + β x + ε.

Regresní model se nazývá lineární, když je lineární ve svých parametrech. Není důležité jaký je tvar zápisu nezávisle proměnné.

Příklad 1: Model Y = α + β x + γx² + ε je lineární také ve vztahu k parametru γ . To, že v modelu vystupuje jako nezávisle proměnná kvadrát proměnné x na věci nic nemění.

Příklad 2: Model Y = α + β x ^{(-γ x)}+ ε , je lineární v parametrech α a β ale nelineární v parametru γ (protože tento parametr se nedá vytknout ze členu, ve kterém je obsažen). Je to tudíž nelineární model.

Příklad 3: Model Y = α + β /(γ+x) + ε je lineární v parametrech α a β, ale nelineární v parametru γ.

Linearita modelu je důležitá z hlediska praktických výpočtů, jejichž účelem je odhadnout hodnoty parametrů. Pokud se jedná o lineární model, je to mnohem snadnější než u modelu nelineárního, kdy někdy ani odhady parametrů vypočítat není možné.

Odhady parametrů

Vztah mezi závislou a nezávislou veličinou se v rámci regresní analýzy snažíme popsat nějakým funkčním vztahem. Teoretické hodnoty parametrů, které se ve vyjádření závislosti vyskytují, značíme malými řeckými písmeny. Jejich přesnou hodnotu nevíme, ale pokusíme se ji odhadnout na základě experimentů. Návrh experimentu provedeme tak, že zvolíme hodnoty nezávisle proměnné X, provedeme experiment a změříme hodnoty závisle proměnné Y. Tyto experimenty opakujeme nezávisle n krát. Zjištěné hodnoty označme (y₁, x₁), (y₂, x₂), …, (y_n, x_n). V případě dvou nezávislých proměnných X a Z bychom mohli použít pro výsledky experimentů označení (y_i, x_i, z_i). (Jedná se o realizace náhodné veličiny Y, tedy o konkrétní numerickou hodnotu y_i, proto se použije malé písmeno.)

V obecném případě se k odhadu parametrů použije tzv. metody nejmenších čtverců.

Představme si soustavu souřadnic a v ní vyznačené body [x_i, y_i]. Zakreslíme do grafu ještě nějakou přímku y = a + bx. Ptáme se, zda je to vhodná přímka, která by co nejlépe vystihovala hodnoty y_i . K tomu je třeba nejdříve mít kritérium pro hodnocení toho, kdy je nějaká přímka lepší než jiná.

Bod na přímce má hodnotu a + bx_ia tu porovnáváme se skutečnými hodnotami y_i. Zjišťujeme tedy rozdíl d_i = y_i- a - bx_i. Tento rozdíl může být záporný, nulový nebo kladný.

Jestliže rozdíly d_i= y_i- a - bx_i mohou být jak kladné, tak záporné, mohou se v součtu vyrušit. Proto by součet odchylek d_inebyl vhodým kritériem. Vhodnější bude použít součet druhých mocnin odchylek d_i, neboť ten bude vždy nezáporný. Kritériem pro to, jak těsně přímka vystihuje data, tedy bude velikost součtu čtverců odchylek

d_i² = (y_i - a - bx_i)²

Úkolem je nalézt takové hodnoty a,b, které minimalizují tento součet čtverců odchylek. Tato metoda má proto vžitý název metoda nejmenších čtverců.

Pokud se jedná o lineární model, je možné určit, které hodnoty parametrů minimalizují součet čtverců. Pokud je model nelineární, není to vždy možné a numerický výpočet bývá často velmi obtížný. I to je jedním z důvodů pro odlišení modelů lineárních od nelineárních.

Odvození vzorců pro jednoduchou lineární regresi (nepovinné)

Eliminace jednoho parametru

Začneme průměrem. Zvolme libovolná čísla r₁, r₂,…, r_N, kde N >1. Je známo, že průměr minimalizuje součet čtverců odchylek, neboli (r_i - a)². To je možné ukázat takto:

Poslední úprava se dala udělat proto, že

Abychom minimalizovali součet čtverců odchylek, stačí minimalizovat

Čtverec nabývá svého minima, je-li čtvercem nuly, tedy
.

Právě ukázaný postup můžeme použít ihned pro jednoduchou lineární regresi. Nechť jsou dány y₁, y_2, …, y_N a x₁, x_2, …, x_N, kde N >1 a x_i nabývají alespoň dvou různých hodnot. Naším úkolem je minimalizovat součet čtverců odchylek

vzhledem k parametrům a a b. Předpokládejme, že je dáno pevné, i když libovolné b a najděme vzorec pro a.

Položíme

a minimalizujeme

Jak jsme ukázali výše, tento výraz nabývá svého minima pro

neboť o průměru již víme, že minimalizuje součet čtverců odchylek.

Dosazení a minimalizace

Po dosazení za a máme

Píšeme-li

pak máme minimalizovat ∑(z_i - bu_i)² jako funkci jedné proměnné b.

∑(z_i- b u_i)²= ∑z_i² - ∑2bz_iu_i+ ∑b²u_i² = ∑z_i²+ ∑u_i²(b² – 2b∑z_iu_i/ ∑u_i²) =

∑z_i² + ∑u_i²(b²– 2b∑z_iu_i/ ∑u_i²+(∑z_iu_i / ∑u_i²)²-(∑z_iu_i / ∑u_i²)²) =

∑z_i² + ∑u_i²((b - ∑z_iu_i / ∑u_i²)² – (∑z_iu_i/ ∑u_i²)²)=

∑z_i²+ ∑u_i²(b - ∑z_iu_i / ∑u_i²)² – (∑z_iu_i)²/ ∑u_i²

Součet čtverců odchylek je minimální, když sčítanec obsahující b, tj. ∑u_i²(b - ∑z_iu_i / ∑u_i²)², je co nejmenší. Zápornou hodnotu mít nemůže (jedná se o čtverec), ale může být roven nule. V takovém případě bude b = ∑z_iu_i /∑u_i², což dává požadované řešení.

Při celém postupu nebyly použity derivace a matice. Tím se celý důkaz dostává na přijatelnou úroveň.