Výklad - regrese
| Stránky: | Moodle Lékařské fakulty Univerzity Karlovy v Hradci Králové |
| Kurz: | Induktivní statistika |
| Kniha: | Výklad - regrese |
| Vytiskl(a): | Nepřihlášený host |
| Datum: | pátek, 29. května 2026, 17.45 |
Popis
regrese
Úvod do regresní analýzy
Základní regresní model
Účelem regresní analýzy je studium vztahu mezi závisle proměnnou a nezávisle proměnnou. Nezávisle proměnných může být více. Podstatné je, že hodnoty nezávisle proměnných určují hodnotu proměnné závislé.
Při určování, které z proměnných jsou závislé a jak závisí na jiných proměnných, je nutné promyslet, zda mezi proměnnými existuje příčinný čili kauzální vztah. Změny nezávisle proměnných musí určovat změnu závisle proměnné.
Regresní model je kvantitativním vyjádřením vztahu příčinné závislosti. Lze ho použít tehdy, když jsou všechny proměnné kvantitavní, závisle proměnná je náhodná a má Gaussovo rozdělení.
Budeme se zabývat kvantitativními nezávislými proměnnými, které mají normální rozdělení.
Pro kvantitativní vyjádření závislosti se používá pojmu funkce, jak je definován v matematice. Je dána množina A a množina B, funkce je přiřazení právě jednoho prvku množiny B každému prvku množiny A. Funkce je tedy množina dvojic (a, b), kde a Є A a b Є B, přitom každé a Є A se vyskytuje právě jednou.
Pomocí funkcí se zapisují závislosti nejen v matematice, ale také v jiných vědách, například právě ve fyzice. Funkce jsou ale jen teoretickým modelem. Ve skutečnosti často bývá závislost mnohem složitější a jednoduchý model nevystihuje všechny působící vlivy. I kdybychom přidali další nezávisle proměnné a získali model ideální, stejně bychom nebyli schopni postihnout působení vlivů náhodných. Nikdy proto nemůžeme čekat, že bude splněn přesný funkční vztah.
Jednoduchá lineární regrese
Předpokládejme, že spojitá náhodná veličina Y je vyjádřena jako funkce f(x) nějaké nezávislé veličiny x, která není náhodná a k níž musíme tedy přidat náhodnou veličinu ε, abychom ještě vystihli chybu měření, případně další náhodné vlivy. Model pak vypadá takto
Y = f(x) + ε .
Předpokládá se, že funkce f závisí ještě na nějakých parametrech, jinak by nebylo celkem co zkoumat. Model v nejobecnějším tvaru se tudíž zapíše následujícím způsobem:
Y = f(α, x) + ε ,
kde navíc α označuje neznámé parametry, které určují funkci f.
Rozlišujeme formálně dva typy regresních modelů: lineární a nelineární.
Lineární model se obecně zapisuje jako
Y = α0 + α1x1 + α2x2 + α3x3 + … + αnxn+ ε ,
Kde x1, x2, x3, …, xn značí nezávisle proměnné, kterých je celkem n.
K jednotlivým proměnným patří regresní koeficienty α1, α2, α3, …, αn. Regresní koeficient α0 se nazývá absolutní člen a nepatří k žádné nezávisle proměnné. Absolutní člen vyjadřuje posuv náhodné veličiny Y směrem k větším či menším hodnotám.
Pokud například Y závisí jen na dvou nezávisle proměnných, označíme je spíš jako X a Z a regresní koeficienty řeckými písmeny α , β, γ. Model potom má tvar
Y = α + β x + γ z + ε.
Jednoduchý lineární regresní model
Nejjednodušší je model, který má název jednoduchý lineární regresní model
Y = α + β x + ε.
Regresní model se nazývá lineární, když je lineární ve svých parametrech. Není důležité jaký je tvar zápisu nezávisle proměnné.
Příklad 1: Model Y = α + β x + γx2 + ε je lineární také ve vztahu k parametru γ . To, že v modelu vystupuje jako nezávisle proměnná kvadrát proměnné x na věci nic nemění.
Příklad 2: Model Y = α + β x (-γ x)+ ε , je lineární v parametrech α a β ale nelineární v parametru γ (protože tento parametr se nedá vytknout ze členu, ve kterém je obsažen). Je to tudíž nelineární model.
Příklad 3: Model Y = α + β /(γ+x) + ε je lineární v parametrech α a β, ale nelineární v parametru γ.
Linearita modelu je důležitá z hlediska praktických výpočtů, jejichž účelem je odhadnout hodnoty parametrů. Pokud se jedná o lineární model, je to mnohem snadnější než u modelu nelineárního, kdy někdy ani odhady parametrů vypočítat není možné.
Odhady parametrů
Vztah mezi závislou a nezávislou veličinou se v rámci regresní analýzy snažíme popsat nějakým funkčním vztahem. Teoretické hodnoty parametrů, které se ve vyjádření závislosti vyskytují, značíme malými řeckými písmeny. Jejich přesnou hodnotu nevíme, ale pokusíme se ji odhadnout na základě experimentů. Návrh experimentu provedeme tak, že zvolíme hodnoty nezávisle proměnné X, provedeme experiment a změříme hodnoty závisle proměnné Y. Tyto experimenty opakujeme nezávisle n krát. Zjištěné hodnoty označme (y1, x1), (y2, x2), …, (yn, xn). V případě dvou nezávislých proměnných X a Z bychom mohli použít pro výsledky experimentů označení (yi, xi, zi). (Jedná se o realizace náhodné veličiny Y, tedy o konkrétní numerickou hodnotu yi, proto se použije malé písmeno.)
V obecném případě se k odhadu parametrů použije tzv. metody nejmenších čtverců.
Bod na přímce má hodnotu a + bxi a tu porovnáváme se skutečnými hodnotami yi. Zjišťujeme tedy rozdíl di = yi - a - bxi. Tento rozdíl může být záporný, nulový nebo kladný.
Jestliže rozdíly di = yi - a - bxi mohou být jak kladné, tak záporné, mohou se v součtu vyrušit. Proto by součet odchylek di nebyl vhodým kritériem. Vhodnější bude použít součet druhých mocnin odchylek di, neboť ten bude vždy nezáporný. Kritériem pro to, jak těsně přímka vystihuje data, tedy bude velikost součtu čtverců odchylek
di2 = (yi - a - bxi)2
Úkolem je nalézt takové hodnoty a,b, které minimalizují tento součet čtverců odchylek. Tato metoda má proto vžitý název metoda nejmenších čtverců.
Pokud se jedná o lineární model, je možné určit, které hodnoty parametrů minimalizují součet čtverců. Pokud je model nelineární, není to vždy možné a numerický výpočet bývá často velmi obtížný. I to je jedním z důvodů pro odlišení modelů lineárních od nelineárních.
Odvození vzorců pro jednoduchou lineární regresi (nepovinné)
Eliminace jednoho parametru
Začneme průměrem. Zvolme libovolná čísla r1, r2,…, rN, kde N >1. Je známo, že průměr minimalizuje součet čtverců odchylek, neboli (ri - a)2 . To je možné ukázat takto:

Poslední úprava se dala udělat proto, že
![]()
Abychom minimalizovali součet čtverců odchylek, stačí minimalizovat
![]()
Čtverec nabývá svého minima, je-li čtvercem nuly, tedy
.
Právě ukázaný postup můžeme použít ihned pro jednoduchou lineární regresi. Nechť jsou dány y1, y2, …, yN a x1, x2, …, xN, kde N >1 a xi nabývají alespoň dvou různých hodnot. Naším úkolem je minimalizovat součet čtverců odchylek
vzhledem k parametrům a a b. Předpokládejme, že je dáno pevné, i když libovolné b a najděme vzorec pro a.
Položíme
a minimalizujeme
![]()
Jak jsme ukázali výše, tento výraz nabývá svého minima pro
![]()
neboť o průměru již víme, že minimalizuje součet čtverců odchylek.
Dosazení a minimalizace
Po dosazení za a máme
![]()
Píšeme-li
![]()
a
![]()
pak máme minimalizovat ∑(zi - bui)2 jako funkci jedné proměnné b.
∑(zi - b ui)2= ∑zi2 - ∑2bziui + ∑b2ui2 = ∑zi2 + ∑ui2(b2 – 2b∑ziui / ∑ui 2) =∑zi2 + ∑ui2(b2 – 2b∑ziui / ∑ui2+(∑ziui / ∑ui2)2-(∑ziui / ∑ui2)2) =
∑zi2 + ∑ui2((b - ∑ziui / ∑ui2)2 – (∑ziui / ∑ui2)2)=
∑zi2 + ∑ui2(b - ∑ziui / ∑ui2)2 – (∑ziui)2/ ∑ui2
Součet čtverců odchylek je minimální, když sčítanec obsahující b, tj. ∑ui2(b - ∑ziui / ∑ui2)2, je co nejmenší. Zápornou hodnotu mít nemůže (jedná se o čtverec), ale může být roven nule. V takovém případě bude b = ∑ziui /∑ui2, což dává požadované řešení.
Při celém postupu nebyly použity derivace a matice. Tím se celý důkaz dostává na přijatelnou úroveň.
Koeficient determinace
Po výpočtu regresních koeficientů a, b je ještě dobré ověřit, zda vypočtený jednoduchý lineární model (tedy přímka daná parametry a, b) skutečně ukazuje trend daný daty. Proto je vždy vhodné data ještě graficky znázornit. Tak snadno odhalíme, zda se nejedná o závislost úplně jiného druhu než jednoduchou lineární.
Pro numerické vystižení těsnosti závislosti se používá koeficient determinace. Jeho definice je založena na postupu, který se nazývá rozklad součtu čtverců.
Základem je teoretický model Y = α + β x + ε. Parametry modelu odhadujeme tak, že nejprve pro zadané hodnoty xi naměříme hodnoty yi a metodou nejmenších čtverců vypočteme odhady a, b neznámých parametrů α , β. Tím dostaneme funkci a + bx, která je odhadem funkce α + β x. Body na přímce a + bxi nazýváme vypočtené hodnoty a označíme vi = a + bxi.
Z vypočtených hodnot vi spočítáme průměr a označíme jej
![]()
Bude nás zajímat také rozdíl di naměřených a vypočtených hodnot.
di = yi - vi = yi - a - bxi . Rozdíly di jsou rozdíly, jejichž součet čtverců jsme minimalizovali.
Ať yi vzniklo z jakéhokoliv modelu, můžeme vypočítat průměr
![]()
Z naměřených hodnot a jejich průměru lze spočítat součet čtverců odchylek od průměru, neboli součet čtverců úplný,
![]()
Ten je zajímavý proto, že se dá rozložit na dva sčítance. První sčítanec je součet čtverců odchylek vypočtených hodnot vi od jejich průměru. Tento součet se nazývá součet čtverců regresní,
![]()
Přitom je důležité, aby vi byla vypočtena metodou nejmenších čtverců.
Druhý sčítanec je součet čtverců odchylek di (tj. rozdílů naměřených a vypočtených hodnot). Víme, že metoda nejmenších čtverců zajišťuje, že součet odchylek je nulový Σdi = 0 , tudíž
. Tento součet čtverců odchylek se nazývá chybový
![]()
Rozklad součtu čtverců odchylek se dá psát takto
SCU = SCR + SCC.
Můžeme se nyní zeptat, jakou část součtu čtverců úplného je možné přisoudit regresní přímce a jakou část je možné přisoudit odchylkám. To můžeme měřit pomocí poměru
R2 = SCR/SCU, který se nazývá koeficient determinace.
Jestliže čitatele i jmenovatele dělíme číslem (N-1) dostáváme v čitateli rozptyl vypočtených hodnot Sv2 = SCR/(N-1) a ve jmenovateli rozptyl hodnot závisle proměnné Sy2 = SCU/(N-1). Čili R2 = Sv2 / Sy2. Když navíc tento podíl uvedeme v procentech, což je běžným zvykem, nazýváme koeficient determinace procentem vysvětleného rozptylu.
Z definice vidíme, že koeficient determinace je vždy nezáporný a nejvýše roven jedné 0 ≤ R2 ≤ 1. Pokud regresní přímka přesně vystihuje všechny body [xi, yi], tj. všemi body [xi, yi] prochází, je koeficient determinace roven jedné, neboť Σdi = 0 a rozklad součtu čtverců dává SCU = SCR.
V praktických příkladech se pokládá koeficient determinace za dostatečně vysoký, když je v horní čtvrtině intervalu <0;1>, tedy přesahuje 0,75. To znamená, že více než tři čtvrtiny rozptylu jsou vysvětleny regresí, zbývající čtvrtina rozptylu je způsobena chybami di .