Jednoduchá lineární regrese


Předpokládejme, že spojitá náhodná veličina Y je vyjádřena jako funkce f(x) nějaké nezávislé veličiny x, která není náhodná a k níž musíme tedy přidat náhodnou veličinu ε, abychom ještě vystihli chybu měření, případně další náhodné vlivy. Model pak vypadá takto


Y = f(x) + ε .


Předpokládá se, že funkce f závisí ještě na nějakých parametrech, jinak by nebylo celkem co zkoumat. Model v nejobecnějším tvaru se tudíž zapíše následujícím způsobem:


Y = f(α, x) + ε ,


kde navíc α označuje neznámé parametry, které určují funkci f.



Rozlišujeme formálně dva typy regresních modelů: lineární a nelineární.


Lineární model se obecně zapisuje jako


Y = α0 + α1x1 + α2x2 + α3x3 + … + αnxn+ ε ,


Kde x1, x2, x3, …, xn značí nezávisle proměnné, kterých je celkem n.

K jednotlivým proměnným patří regresní koeficienty α1, α2, α3, …, αn. Regresní koeficient α0 se nazývá absolutní člen a nepatří k žádné nezávisle proměnné. Absolutní člen vyjadřuje posuv náhodné veličiny Y směrem k větším či menším hodnotám.


Pokud například Y závisí jen na dvou nezávisle proměnných, označíme je spíš jako X a Z a regresní koeficienty řeckými písmeny α , β, γ. Model potom má tvar

Y = α + β x + γ z + ε.


Jednoduchý lineární regresní model


Nejjednodušší je model, který má název jednoduchý lineární regresní model


Y = α + β x + ε.


Regresní model se nazývá lineární, když je lineární ve svých parametrech. Není důležité jaký je tvar zápisu nezávisle proměnné.


Příklad 1: Model Y = α + β x + γx2 + ε je lineární také ve vztahu k parametru γ . To, že v modelu vystupuje jako nezávisle proměnná kvadrát proměnné x na věci nic nemění.


Příklad 2: Model Y = α + β x (-γ x)+ ε , je lineární v parametrech α a β ale nelineární v parametru γ (protože tento parametr se nedá vytknout ze členu, ve kterém je obsažen). Je to tudíž nelineární model.


Příklad 3: Model Y = α + β /(γ+x) + ε je lineární v parametrech α a β, ale nelineární v parametru γ.


Linearita modelu je důležitá z hlediska praktických výpočtů, jejichž účelem je odhadnout hodnoty parametrů. Pokud se jedná o lineární model, je to mnohem snadnější než u modelu nelineárního, kdy někdy ani odhady parametrů vypočítat není možné.


Odhady parametrů

Vztah mezi závislou a nezávislou veličinou se v rámci regresní analýzy snažíme popsat nějakým funkčním vztahem. Teoretické hodnoty parametrů, které se ve vyjádření závislosti vyskytují, značíme malými řeckými písmeny. Jejich přesnou hodnotu nevíme, ale pokusíme se ji odhadnout na základě experimentů. Návrh experimentu provedeme tak, že zvolíme hodnoty nezávisle proměnné X, provedeme experiment a změříme hodnoty závisle proměnné Y. Tyto experimenty opakujeme nezávisle n krát. Zjištěné hodnoty označme (y1, x1), (y2, x2), …, (yn, xn). V případě dvou nezávislých proměnných X a Z bychom mohli použít pro výsledky experimentů označení (yi, xi, zi). (Jedná se o realizace náhodné veličiny Y, tedy o konkrétní numerickou hodnotu yi, proto se použije malé písmeno.)


V obecném případě se k odhadu parametrů použije tzv. metody nejmenších čtverců.


Představme si soustavu souřadnic a v ní vyznačené body [xi, yi]. Zakreslíme do grafu ještě nějakou přímku y = a + bx. Ptáme se, zda je to vhodná přímka, která by co nejlépe vystihovala hodnoty yi . K tomu je třeba nejdříve mít kritérium pro hodnocení toho, kdy je nějaká přímka lepší než jiná.

Bod na přímce má hodnotu a + bxi a tu porovnáváme se skutečnými hodnotami yi. Zjišťujeme tedy rozdíl di = yi - a - bxi. Tento rozdíl může být záporný, nulový nebo kladný.

Jestliže rozdíly di = yi - a - bxi mohou být jak kladné, tak záporné, mohou se v součtu vyrušit. Proto by součet odchylek di nebyl vhodým kritériem. Vhodnější bude použít součet druhých mocnin odchylek di, neboť ten bude vždy nezáporný. Kritériem pro to, jak těsně přímka vystihuje data, tedy bude velikost součtu čtverců odchylek


di2 = (yi - a - bxi)2


Úkolem je nalézt takové hodnoty a,b, které minimalizují tento součet čtverců odchylek. Tato metoda má proto vžitý název metoda nejmenších čtverců.


Pokud se jedná o lineární model, je možné určit, které hodnoty parametrů minimalizují součet čtverců. Pokud je model nelineární, není to vždy možné a numerický výpočet bývá často velmi obtížný. I to je jedním z důvodů pro odlišení modelů lineárních od nelineárních.


Odvození vzorců pro jednoduchou lineární regresi (nepovinné)



Eliminace jednoho parametru

Začneme průměrem. Zvolme libovolná čísla r1, r2,…, rN, kde N >1. Je známo, že průměr minimalizuje součet čtverců odchylek, neboli (ri - a)2 . To je možné ukázat takto:





Poslední úprava se dala udělat proto, že



Abychom minimalizovali součet čtverců odchylek, stačí minimalizovat


Čtverec nabývá svého minima, je-li čtvercem nuly, tedy
.

Právě ukázaný postup můžeme použít ihned pro jednoduchou lineární regresi. Nechť jsou dány y1, y2, …, yN a x1, x2, …, xN, kde N >1 a xi nabývají alespoň dvou různých hodnot. Naším úkolem je minimalizovat součet čtverců odchylek


vzhledem k parametrům a a b. Předpokládejme, že je dáno pevné, i když libovolné b a najděme vzorec pro a.

Položíme


a minimalizujeme


Jak jsme ukázali výše, tento výraz nabývá svého minima pro


neboť o průměru již víme, že minimalizuje součet čtverců odchylek.


Dosazení a minimalizace

Po dosazení za a máme



Píšeme-li


a


pak máme minimalizovat ∑(zi - bui)2 jako funkci jedné proměnné b.

∑(zi - b ui)2= ∑zi2 - ∑2bziui + ∑b2ui2 = ∑zi2 + ∑ui2(b2 – 2b∑ziui / ∑ui 2) =

∑zi2 + ∑ui2(b2 – 2b∑ziui / ∑ui2+(∑ziui / ∑ui2)2-(∑ziui / ∑ui2)2) =

∑zi2 + ∑ui2((b - ∑ziui / ∑ui2)2 – (∑ziui / ∑ui2)2)=

∑zi2 + ∑ui2(b - ∑ziui / ∑ui2)2 – (∑ziui)2/ ∑ui2

Součet čtverců odchylek je minimální, když sčítanec obsahující b, tj. ∑ui2(b - ∑ziui / ∑ui2)2, je co nejmenší. Zápornou hodnotu mít nemůže (jedná se o čtverec), ale může být roven nule. V takovém případě bude b =ziui /ui2, což dává požadované řešení.

Při celém postupu nebyly použity derivace a matice. Tím se celý důkaz dostává na přijatelnou úroveň.