Info o datech

Před programovaním v R softwaru si osvěžme teorii, ketou uvedeme do praxe. Vysvětlující a vysvětlovaná proměnná jsou tedy v určitém vztahu, který můžeme modelovat
Závislá proměnná je tedy náhodná veličina s normálním rozdělením a pro odvození modelu se použije metoda nejmenších čtverců. Pokud závislá proměnná není spojitá, ale binární (0 či 1, výskyt polomu ano/ne), nelze použít k odhadu parametrů klasickou regresní analýzu, ale požijeme metodu logistické regrese k hodnocení pravděpodobnosti výskytu polomů. Tedy odhadne závisle proměnnou podle známých (nezávisle proměnných), které mohou ovlivnit výskyt jevu. Cílem je analýza efektů nezávislých proměnných (výška, věk, zakmenění), které mohou být numerického nebo kategoriálního typu.

Datová sada nezávislých (vysvětlujících) závislých a (vysvětlovaných) proměnných, kvantitativního (množstevního, číselného) charakteru či kvalitativní (označují kategorie) charakteru.
Každá proměnná v modelu je reprezentována sadou znaků. Ke každému znaku je následně přiřazená binární proměnná nabývajících hodnotu 1, prvek daného znaku nabývá (výskyt polomu v určitém zakmenění) a hodnotu 0, prvek daného znaku nenabývá.

K odhadnutí parametrů modelu byla užita metoda maximální věrohodnosti, která spočívá v konstrukci věrohodnostní funkce, která udá pravděpodobnost, s jakou při daném odhadovaném modelu nastanou právě všechny pozorované události. Algoritmy pro výpočet parametrů jsou implementovány v běžně dostupných, výše vyjmenovaných, statistických programech.

Před výpočtem parametrů byly pro všechny vysvětlující proměnné spočteny Pearsonovy korelační koeficienty, v případech vysoké korelace mezi nezávislými proměnnými byla jedna z nich z výpočtu parametrů modelu vyloučena z důvodů multikolinearity.
Výběr nejvhodnějšího modelu poskytla metoda postupné regrese (nalezne nejvhodnější kombinaci nezávislých proměnných nejlépe vysvětluje pravděpodobnost výskytu jevu.

Vybrány byly:

1. nadm_vyska (nadmořská výška),
2. vek (věk),
3. zakmeneni (zamenění),
4. vlhkost,
5. hloubka
6. smrk_zast (zastoupení smrku v porostu).

Model logistické regrese byl ověřen testem poměru věrohodností, jimž se testují zejména hypotézy o vlivu konkrétní nezávislé proměnné na pravděpodobnost výskytu zkoumaného jevu. Testování významnosti jednotlivých parametrů provedeno pomocí takzvaného Waldova testu (poměr maximálně věrohodného odhadu a odhadu směrodatné odchylky).

Závěr

Na základě výstupu logicky odhadneme, že většina území spadá do intervalu s nejnižšími hodnotami pravděpodobnosti polomu 0 až 0,2. Plochy se středním rizikem ohrožení, 0,2 až 0,6 zaujímají přibližně jednu třetinu území.

Plochy s nejvyšší pravděpodobnostím rizikem, okolo 0,8, dobře odkrývají ohrožení.Intervaly s nejvyššími hodnotami pravděpodobnosti výskytu větrných polomů se logicky překrývají a navazují s opravdovými polomovými plochy způsobenými silnými větry, což potvrzuje správnost použitých postupů a modelu.

Korelace

korelace.png, 24kB

Rovnice logistické regrese

regrese.png, 24kB

Šance a odds

sance.png, 24kB

Summary

Logistic regression should be shown with R software, but also sum up the possibility of analysing dataset with other statistical and geoinformatics software. R software is open source mathematician program with graphical outcome, programmed with R and S language. For expanding basic configuration R software is possible set up packages on CRAN Mirrors. There is allowed input, store data, manipulate with sets and matrix and analyzing datasets. R software can be also used for data mining. Other statistic programs can be used for logistic regression for example SAS system (used with a company management´s database care, but also for science purpose), STATA software (Data Analysis and Satistical Software, here is able manage data, analyse them, but graphical tools are worse than R software). The used GIS software is from ESRI family, ArcGIS Desktop 9.x with geostatistical analyst and licence ArcInfo. But all outcomes are from R software, because the aim was to show that statistical software can be also used for geoinformatics analysis and not just clear GIS software.

Logistic regression was performed in the R software. The potential independent (explanatory) variables include only the relevant variables. Pearson correlation coefficients identified variables to minimize multicolinearity. The suitable independent variables were obtained, the stepwise selection methods were chosen to aid in the formulation of a model. The stepwise result of variable selection elected this the most important parameters nadmor_vyska (ELEV, elevation), vek (VEK, age), zakmenení (ZAKM, crop density), vlhkost (VLHK, humidity of soil), hloubka (HLOUB, depth of rootage) and smrk_zast (ZAST_S,number of suprce in the territory).

The R software can give good graphical results, but not as good as GIS software, what can give also maps. The logit (log of the odds) was calculated and then converted to a probability. A large part (almost 57%) of study territory show a low risk (green) of windthrow. The medium risk, one quarter of area, is colored with yellow, Rest of the territory (white) shows places with the highest probability for windthrow disaster.

Many natural and anthropogenic factors induce the probability of the windthrow. We should beware, that not only knowledge, how various factors relate, can lead us to the right results, but as important as this is know how factors are related to each other. Then we can understand how the factors affect the occurrence of windthrow disaster and choose the method for the best simulation of likelihood, when can be wind damage and where the probability is low. The process of assessing wind damage hazard using free R software, but also other statistical and GIS software were described, if statistical tools for logistic regression are there.