Základní pojmy

Komplexním pochopením obecné matematické a statistické teorie, a na ní založené problematiky výpočtů, budeme schopni pracovat, s jakýmkoli statistickým programem tak, abychom zpětně rozšifrovat, jak bylo naloženo s daty, jaké funkce byly použity a zda vše vedlo k zdárnému výsledku.


Vybrané pojmy

Matematická statistika je analýza číselných údajů podléhajícím náhodným vlivům shromažďovaných pro popis početných souborů.

Pravděpodobnost. Je-li počet všech možných výsledků náhodného pokusu konečný a jednotlivé výsledky lze považovat za stejně pravděpodobné, P(A)=K/N, N je počet všech možných náhodných pokusů a K je počet všech výsledků pokusu, při kterých nastává jev A.

Náhodný výběr z daného rozdělení pravděpodobností je soubor nezávislých náhodných veličin X1,…,Xn s tímto rozdělením. Číslo n se nazývá rozsah náhodného výběru. Tedy situace kdy n-krát navzájem nezávisle opakujeme za stejných podmínek určitý náhodný pokus.



Odhady a hypotézy

Statistiky a odhady. Hodnoty konstruované na základě náhodného výběru za účelem statistického rozboru se nazývají statistiky. Statistiky konstruované k přibližnému určení charakteristik příslušného rozdělení se nazývají výběrové charakteristiky. Statistiky konstruované k přibližnému určení parametrů se nazývají odhady.
Na základě zjištěných údajů je nutné zvolit právě jedno ze dvou možných, předem daných, navzájem se vylučujících rozhodnutí, hypotéz.



KORELACE

Objev korelace patří k milníkům rozvoje statistiky.Korelace je vyjádření vztahů mezi složkami E1,…, Em m-rozměrného náhodného vektoru E využitím podmíněné střední hodnoty, a určením intenzity vztahů s využitím korelačního koeficientu.
I když se v praxi korelační úlohy jsou méně časté, hlubším pohledem zjistíme, že problémy jako porovnávání analytických metod na odlišných vzorcích nebo hledání souvislosti mezi různými vlastnostmi či charakteristikami látek patří spíše mezi úlohy korelace než klasické regrese.



REGRESNÍ ANALÝZY

Hledání závislosti mezi proměnnými je důležité v mnoha oborech (např. výše investic do reklamy k celkové hodnotě tržeb podniku). Závisle proměnná (vysvětlovaná) je určena ne závisle proměnou (vysvětlující). Závisle proměnou je náhodná veličina, která má při dané hodnotě (náhodné) vysvětlující veličiny určitého rozdělení pravděpodobnosti.



Regresní funkce

V praktických úlohách se vyšetřuje závislost různých proměnných. Příkladem může být spotřeba benzínu na průměrné rychlosti automobilu. Ve statistice je vhodné pohlížet na závisle proměnnou jako na náhodnou veličinu Y, kdy pak může tvrdit Y = f(x1…,xr ) + e, kde e náhodná odchylka.



Lineární regresní modely

Cílem statistické analýzy je objasnit vztah mezi měřenou výstupní závisle proměnnou (vysvětlovanou) veličinou y a nastavovanými, vstupními nezávisle proměnnými (vysvětlujícími) veličinami x.
Typ závislosti, vyjádřený funkcí y = f(x, B), záleží na tom, jaké povahy jsou veličiny y a x (obě náhodné, y je náhodná a x nenáhodná).



Metody nejmenších čtverců

Pro odhad parametrů regresní funkce se nejčastěji používá metoda nejmenších čtverců, která spočívá v minimalizaci výrazu přes všechny možné hodnoty parametrů určujících regresní funkci. Metodu nejmenších čtverců interpretujeme jako metodu umožňující optimálně proložit vhodnou křivku y = f(x1…,xr) danými body.

Maticový zápis MNČ Y = XB + e



Lineární regrese na počítači

Příčiny numerických potíží při počítačovém odhadu parametrů b jsou
1. Zanedbání omezené přesnosti počítače při sestavování matice.
2. Nevhodné postupy výpočtu inverzní matice řešení soustav lineárních rovnic.
3.Multikolinarita vedoucí ke špatné podmíněnosti matice.
4. Lineární závislost některých sloupců matice vedoucí k tomu, že k matici nelze najít inverzní matici z důvodů singularity.



Regresní diagnostika

Při vyhodnocení lineárních a nelineárních regresních modelů se tedy používá metody nejmenších čtverců. Tato metoda ještě nezajišťuje nalezení přijatelného modelu, a to jak ze statického, tak i z fyzikálního hlediska. Zdrojem problémů jsou složky tzv. regresního tripletu (data, model, model odhadu).

Regresní diagnostika obsahuje postup k identifikaci
a) kvality dat pro navržený model,
b) kvality modelu pro daná data,
c) splnění základních předpokladů metody nejmenších čtverců.

Základní rozdíl mezi regresní diagnostikou a klasickými testy spočívá v tom, že u regresní diagnostiky není třeba přesně formulovat alternativní hypotézu a jsou přitom odhaleny typy odchylek od ideálního regresního tripletu.

Počítač nám slouží jako nástroj analýzy dat, modelu a metody odhadu, ale uživatel ví o datech stejně více.



Analýza dat a kvalita dat

Kvalita dat úzce souvisí s užitým regresním modelem. Při posuzování se sleduje především výskyt vlivných bodů (VB), které jsou hlavní zdrojem řady problémů, jako je zkreslení odhadů a růst rozptylů. Někdy VB zlepšují predikční schopnost modelů.