obrazek

POUŽITÉ METODY



Zpracování dat
Před samotnými analýzami bylo nutné získaná data zpracovat. U nálezových dat rostlin se jednalo o vytvoření bodové vrstvy na základě obdržených souřadnic, dále mazání bodů s nízkou přesností, duplicitních bodů a bodů s nevhodným umístěním. Při výpočtu indexů z výškových dat SRTM30 musela být vrstva rozdělena do UTM pásem, aby nedocházelo ke zkreslení výpočtů vlivem nevhodně zvoleného souřadnicového systému. U datových sad stažených z Google Earth Engine muselo dojít ke zprůměrování některých datových sad za celé období, aby korespondovaly z ostatními environmentálními datovými sadami. Hodnoty ze všech environmentálních datových sad byly extrahovány každému bodu výskytu rostlin, aby byly umožněny statistické analýzy v softwaru RStudio. Navíc musely být smazány všechny záznamy, které obsahovaly NULL hodnoty, jinak nebylo možné vytvořit korelační matici, která vyžadovala kompletní sadu dat.

Indexy odvozené ze SRTM30
Compound Topographic Index (CTI) také označovaný jako Topographic Wetness Index (TWI) je index vlhkosti v ustáleném stavu, do jehož výpočtu vstupují akumulace průtoku a sklon svahu.
Heat Load Index (HLI) neboli Index tepelné zátěže ve výpočtu počítá se zeměpisnou šířkou, sklonem a orientací svahu.
Integrated Moisture Index (IMI) odhaduje vlhkost půdy v topograficky heterogenní krajině, v závislosti na intenzitě stínu, zakřivení svahu a akumulace odtoku.
Site Exposure Index (SEI) rozděluje svah podle orientace na dvě části, a to na severní a jižní. Zároveň zohledňuje strmost svahu.
Topographic Radiation Aspect Index (TRASP) počítá s kruhovou orientací svahu tak, že chladnějším a mokřejším svahům orientovaným na severovýchod přiřazuje hodnotu 0 a teplejším a sušším svahům jihozápadním přiřazuje hodnotu 1.

Analýza hlavních komponent (PCA)
Analýza hlavních komponent je statistická metoda pro zjednodušení popisu vzájemně korelovaných znaků. Cílem PCA je přeměna původních korelovaných znaků na nové nezávislé proměnné, tzv. komponenty. Komponenty jsou lineární kombinací původních proměnných a měly by co nejlépe vysvětlovat variabilitu těchto proměnných (Tonhauserová, 2013). Hlavní komponenty jsou seřazeny podle množství rozptylu obsažených dat, přičemž první komponenta vždy obsahuje největší množství informace o variabilitě původních dat, druhá hlavní komponenta obsahuje největší část variability původních dat, která není obsažena v první komponentě atd. (Meloun, 2014).
Pro objektivní posouzení, kolik hlavních komponent má do následných analýz vstupovat, se nejčastěji používá scree plot. Jedná se o sloupcový diagram, který zobrazuje relativní velikost vlastních čísel. Vyberou se komponenty, které jsou od zbytku odděleny jasným zlomovým místem. Pokud zlom v diagramu není zřetelný, lze použít také Keiserovo kritérium, kdy se vyberou pouze ty komponenty, které mají vlastní číslo větší než 1 (Meloun, 2014).
Výsledky PCA lze kromě scree plotu zobrazit v několika dalších diagramech. Těmi jsou graf komponentních vah, scatterplot a biplot. Graf komponentních vah (graf komponentních zátěží) zobrazuje komponentní váhy pro první dvě hlavní komponenty a porovnává, jak spolu souvisí jednotlivé znaky (v této práci environmentální faktory). Čím blíže sobě se jednotlivé faktory nacházejí, tím více spolu korelují. Opačný směr faktorů v grafu značí negativní korelaci a nulovou korelaci vykazují faktory v grafu na sebe kolmé. Čím dále se faktory nachází od počátku grafu, tím větší mají na komponenty vliv.
Scatterplot neboli rozptylový diagram komponentního skóre zobrazuje u prvních dvou komponent hodnoty všech prvků. Prvky nacházející se blíže sobě jsou si podobnější než prvky vzdálené. Prvky, které jsou umístěny blíže středu jsou nejtypičtější, v opačném případě se jedná o extrémy. Biplot je kombinací grafu komponentních vah a scatterplotu (Meloun, 2014).

Shluková analýza k-means
Korelace vyjadřuje míru závislosti mezi několika proměnnými. Může dosahovat hodnot od -1 do 1, přičemž hodnoty blížící se 1 vykazují vysokou pozitivní korelaci, hodnoty blížící se k -1 vykazují negativní korelaci a hodnoty okolo 0 značí, že spolu proměnné nekorelují. Pro posouzení míry korelace mezi větším množstvím proměnných lze využít korelační matice, která zobrazuje korelaci mezi všemi vstupními proměnnými navzájem. Hodnoty korelace lze rozdělit do několika kategorií. Například de Vaus (2002) uvádí následující rozdělení:

korelace ⟨0; 0,10) → žádná závislost
korelace ⟨0,10; 0,30) → nízká až střední závislost
korelace ⟨0,30; 0,50) → střední závislost
korelace ⟨0,50; 0,70) → podstatná závislost
korelace ⟨0,70; 0,90) → velmi silná závislost
korelace ⟨0,90; 1⟩ → skoro perfektní závislost

Graf paralelních souřadnic
Shlukové analýzy slouží k vymezení skupin, ve kterých jsou si data nejvíce podobná a zároveň jsou si tyto skupiny navzájem odlišné. Jednou z metod shlukových analýz je metoda nejbližších středů k-means. Před začátkem shlukování je vhodné provézt standardizaci vstupních dat, aby se zabránilo ovlivnění výsledků neporovnatelnými hodnotami atributů. Metoda k-means je založena na postupném přesunování objektů mezi shluky. Na začátku algoritmu se vždy zvolí počet shluků a počáteční hodnoty jejich průměrů. Následuje klasifikace, při které se všechny objekty přiřadí k nejbližšímu průměru určenému v předchozím kroku. Následně se v každém shluku vypočítá nový střed jako těžiště shluku a přiřadí se mu všechny objekty, které se nachází nejblíže. To se opakuje, dokud nedochází k výraznému zlepšení (Ivan, 2016; Dvořák, 2008). Výhodou této metody je její výpočetní nenáročnost, nevýhodou je naopak to, že musí uživatel dopředu určit počet shluků. Aby byl počet shluků zvolen správně, lze použít některou z metod, která dokáže optimální počet shluků zvolit. Nejčastěji používaná je metoda elbow, kdy je podobně jako u scree plotu pomocí grafu vizuálně posouzeno místo zlomu, které je bráno jako optimální pro výběr počtu shluků (Ivan, 2016).

Analýza hlavních komponent (PCA)
Tato metoda se používá pro zobrazení multidimenzionálních dat, kdy pro každou dimenzi je využita jedna osa rovnoběžná s ostatními. Za dimenze jsou v případě této práce považovány jednotlivé environmentální faktory. Tyto osy jsou rozmístěny paralelně za sebou. Každý bod je zobrazen jako lomená čára, jejíž vrcholy se nachází na jednotlivých osách a jsou dány souřadnicí. Tato souřadnice je úměrná hodnotě, kterou je zastoupena v každé dimenzi (Mrkvička, 2017).