Komplexním pochopením obecné matematické a statistické teorie, a na ní založené problematiky výpočtů, budeme schopni pracovat, s jakýmkoli statistickým programem tak, abychom zpětně rozšifrovat, jak bylo naloženo s daty, jaké funkce byly použity a zda vše vedlo k zdárnému výsledku.
Matematická statistika je analýza číselných údajů podléhajícím náhodným vlivům shromažďovaných pro popis početných souborů.
Pravděpodobnost. Je-li počet všech možných výsledků náhodného pokusu konečný a jednotlivé výsledky lze považovat za stejně pravděpodobné, P(A)=K/N, N je počet všech možných náhodných pokusů a K je počet všech výsledků pokusu, při kterých nastává jev A.
Náhodný výběr z daného rozdělení pravděpodobností je soubor nezávislých náhodných veličin X1,…,Xn s tímto rozdělením. Číslo n se nazývá rozsah náhodného výběru. Tedy situace kdy n-krát navzájem nezávisle opakujeme za stejných podmínek určitý náhodný pokus.
Statistiky a odhady. Hodnoty konstruované na základě náhodného výběru za účelem statistického rozboru se nazývají statistiky. Statistiky konstruované k přibližnému určení charakteristik příslušného rozdělení se nazývají výběrové charakteristiky. Statistiky konstruované k přibližnému určení parametrů se nazývají odhady.
Na základě zjištěných údajů je nutné zvolit právě jedno ze dvou možných, předem daných, navzájem se vylučujících rozhodnutí, hypotéz.
Objev korelace patří k milníkům rozvoje statistiky.Korelace je vyjádření vztahů mezi složkami E1,…, Em m-rozměrného náhodného vektoru E využitím podmíněné střední hodnoty, a určením intenzity vztahů s využitím korelačního koeficientu.
I když se v praxi korelační úlohy jsou méně časté, hlubším pohledem zjistíme, že problémy jako porovnávání analytických metod na odlišných vzorcích nebo hledání souvislosti mezi různými vlastnostmi či charakteristikami látek patří spíše mezi úlohy korelace než klasické regrese.
Hledání závislosti mezi proměnnými je důležité v mnoha oborech (např. výše investic do reklamy k celkové hodnotě tržeb podniku). Závisle proměnná (vysvětlovaná) je určena ne závisle proměnou (vysvětlující). Závisle proměnou je náhodná veličina, která má při dané hodnotě (náhodné) vysvětlující veličiny určitého rozdělení pravděpodobnosti.
V praktických úlohách se vyšetřuje závislost různých proměnných. Příkladem může být spotřeba benzínu na průměrné rychlosti automobilu. Ve statistice je vhodné pohlížet na závisle proměnnou jako na náhodnou veličinu Y, kdy pak může tvrdit Y = f(x1…,xr ) + e, kde e náhodná odchylka.
Cílem statistické analýzy je objasnit vztah mezi měřenou výstupní závisle proměnnou (vysvětlovanou) veličinou y a nastavovanými, vstupními nezávisle proměnnými (vysvětlujícími) veličinami x.
Typ závislosti, vyjádřený funkcí y = f(x, B), záleží na tom, jaké povahy jsou veličiny y a x (obě náhodné, y je náhodná a x nenáhodná).
Pro odhad parametrů regresní funkce se nejčastěji používá metoda nejmenších čtverců, která spočívá v minimalizaci výrazu přes všechny možné hodnoty parametrů určujících regresní funkci. Metodu nejmenších čtverců interpretujeme jako metodu umožňující optimálně proložit vhodnou křivku y = f(x1…,xr) danými body.
Maticový zápis MNČ Y = XB + e
Příčiny numerických potíží při počítačovém odhadu parametrů b jsou
1. Zanedbání omezené přesnosti počítače při sestavování matice.
2. Nevhodné postupy výpočtu inverzní matice řešení soustav lineárních rovnic.
3.Multikolinarita vedoucí ke špatné podmíněnosti matice.
4. Lineární závislost některých sloupců matice vedoucí k tomu, že k matici nelze najít inverzní matici z důvodů singularity.
Při vyhodnocení lineárních a nelineárních regresních modelů se tedy používá metody nejmenších čtverců. Tato metoda ještě nezajišťuje nalezení přijatelného modelu, a to jak ze statického, tak i z fyzikálního hlediska. Zdrojem problémů jsou složky tzv. regresního tripletu (data, model, model odhadu).
Regresní diagnostika obsahuje postup k identifikaci
a) kvality dat pro navržený model,
b) kvality modelu pro daná data,
c) splnění základních předpokladů metody nejmenších čtverců.
Základní rozdíl mezi regresní diagnostikou a klasickými testy spočívá v tom, že u regresní diagnostiky není třeba přesně formulovat alternativní hypotézu a jsou přitom odhaleny typy odchylek od ideálního regresního tripletu.
Počítač nám slouží jako nástroj analýzy dat, modelu a metody odhadu, ale uživatel ví o datech stejně více.
Kvalita dat úzce souvisí s užitým regresním modelem. Při posuzování se sleduje především výskyt vlivných bodů (VB), které jsou hlavní zdrojem řady problémů, jako je zkreslení odhadů a růst rozptylů. Někdy VB zlepšují predikční schopnost modelů.
Porušení metody nejmenších čtverců je často označována jako multikolinearita. Ale multikolinearita neznamená v pravém slova smyslu porušení MNČ, souvisí pouze s předpokladem o pozitivní definitivnosti matice.
Kromě numerických problémů způsobuje multikolinearita i řadu statistických obtíží jako nestabilitu odhadů, velké rozptyly či silnou korelovanou mezi prvky.
Kalibrace je jedna ze základních úloh praxe, neboť chceme počítat s co nepřesnějšími daty, abychom dostaly i co nejpřesnější výsledek. Kalibrace slouží pro konstrukci snímačů fyzikálních veličin.
K přesnosti kalibračních metod se obyčejně definují limitní hodnoty a hraniční šum
Nejprve navrhneme jednoduchý model a předběžně analyzujeme data. Sleduje se proměnlivost jednotlivých proměnných a možné párové vztahy. Užívá se proto rozptylových diagramů a grafů.
Již v této fázi se posuzuje významnost proměnných s ohledem na jejich proměnlivost a přítomnost multikolinearity. Protože lineární vztahy mezi proměnnými v rozptylových grafech indikuje multikolinearitu a vlivné body.
Odhadování parametrů modelu se poté provádí metodou nejmenších čtverců (MNČ) a také se určí základní statistické charakteristiky. Následuje test významnosti jednotlivých parametrů.
Regresní diagnostika využívá rozličných grafů k identifikaci vlivných bodů a ověřuje se samotný předpoklad MNČ. Na základě nalezených vlivných bodů se rozhoduje, zda je nutné tyto body z dat eliminovat, nebo je možné tyto body v datech ponechat.
Pokud je nutné upravit data, provedeme znovu regresní diagnostiku, zkontrolujeme předpoklad MNČ a posuzujeme opět vliv multikolinearity.
Konstrukce zpřesněného modeluje provádět s využitím různých metod MNČ (vážených, zobecněných, rozšiřujících atd.) Také je důležité zhodnotit dosavadní kvalitu modelu regresní diagnostikou. U kalibračních modelů se určí dolní hranice. Nakonec můžeme testovat více hypotéz tvorby modelu a porovnat je.
Pojem regrese poprvé použil Francis Galton při vyšetřování závislosti průměrné výšky potomků na výšce rodičů (Galton (1886). U matky (dcery) zvětšil výšku o 8%, aby byla srovnatelná s výškou otce (syna). Pearson a Lee (1903) pak na základě nových dat došli k poznání, že pokud sledujeme závislost výšky syna na výšce otce.
Vlastní odhady parametrů regrese (lineárního modelu) jsou jen jednou dílčí úlohou, důležitější je odhad vektoru podmíněných středních hodnot závislé proměnné.
Cílem bude vysvětlení variability (kolísání) náhodné veličiny Y (závisle proměnné, vysvětlované proměnné, odezvy) v závislosti na její střední hodnotě jedné nebo více náhodných nezávisle proměnných, predátorech či regresorech x. Pokud by nezávisle proměnné byly náhodnými veličinami, pak se zajímáme o podmíněnou střední hodnotu Y při daných hodnotách
X = x.
Logistická regrese pracuje s binárními veličinami, které modelují jako nevýskyt (nula, 0) nebo výskyt (jednička, 1) sledovaného jevu. Stejně jako u lineárního modelu budeme vyjadřovat střední hodnotu vysvětlované závisle proměnné jako funkci nezávisle proměnných. Ovšem střední hodnota bude rovna pravděpodobnosti jedničky, nuly, tedy pravděpodobnosti výskytu, nevýskytu sledovaného jevu.
Uvažujme nezávislé náhodné veličiny Y1,…Yn s alternativním rozdělením s parametry ui. Střední hodnoty ui jsou totožné s pravděpodobnostmi jedniček a mohou záviset na nějakých nenáhodných doprovodných veličinách xi. Je zřejmé, že platí var Y = µi (1 - µi), takže rozdíl Yi závisí na střední hodnotě této veličiny. Toto je podstatný rozdíl v porovnání s normálním lineárním modelem, kde byl rozptyl konstantní.
Podíl ω(xi.) = ui /(1 - µi ) = Pxi. (Yi = 1) / Pxi. (Yi = 0)
Má bezprostřední interpretaci. Porovnává pravděpodobnost výskyt sledovaného jevu a nevýskyt sledovaného jevu. Pro tento podíl se v anglickém jazyce užívá označní odds (šance). Samotné funkci η (µ) = log (µ /(1 - µ)) se říká logit. V kontextu zobecněných lineárních modelů (generalized linear model - GML) je logit speciálním případem spojovací funkce (link function).
Věnujme se interpretaci parametrů β0, β1 v obecně používaném modelu ηi = β0 + β1xi. Podobná v interpretaci těchto parametrů v lineární regresi. Platí hypotéza typu
H0 : β0 =0.
Předpokládejme nezávisle proměnnou danou dvouhodnotovým faktorem, který je parametrizován. Potom nulajedničková proměnná x vyjadřuje přítomnost nebo nepřítomnost nějakého jevu.
Matematická teorie je v mé práci podrobněji rozepsána s příslušnými matematickými definicemi a vzorci. Ale informace zde uvedené dají nahlédnou do rozsáhleho objemu matematické teorie, kterou je třeba alespoň obecně pochopit. Pro praxi je důležité pochopit i samotné prostředí, kde se jevy nacházejí. A proč a na co je třeba jejich parametry testovat.