V oblasti zkoumání podobnosti měst existuje mnoho přístupů. V rámci diplomové práce je blíže zkoumána možnost aplikace techniky frekventovaných sad, která je klasickou metodou data miningu (Salmenkivi 2017). Tato technika je aplikována na data využití území (land use), která jsou dostupná na celoevropské úrovni prostřednictvím projektu Copernicus.
Použité programy
ArcGIS Pro 2.8.3 a ArcGIS Model Builder
V rámci práce byl použit program ArcGIS Pro, jakožto stěžejní GIS program. Sloužil převážně k přípravě prostorových dat a k jejich následnému zpracování. ArcGIS Model Builder byl použit k implementaci nástroje pro přípravu dichotomických dat, který byl použit k následnému generování vstupních dat pro generování frekventovaných sad sousednosti polygonů využití území.
ArcGIS Pro Model Builder je nástroj grafického uživatelského rozhraní (GUI), který slouží k vytváření, úpravám a správě pracovních postupů nebo modelů v softwaru ArcGIS Pro. Umožňuje uživatelům automatizovat a zefektivnit složité úlohy geoprostorové analýzy a zpracování dat, což usnadňuje vytváření opakovatelných a konzistentních výsledků. Pomocí nástroje Model Builder mohou uživatelé vytvářet a upravovat složité modely geoprocessingu přetažením nástrojů na plátno a jejich propojením se vstupními a výstupními parametry. Nástroj podporuje širokou škálu formátů prostorových dat a uživatelé mohou do pracovních postupů snadno integrovat skripty Pythonu a další vlastní nástroje. Celkově je Model Builder výkonný nástroj, který zvyšuje efektivitu a produktivitu geoprostorových analytiků, výzkumníků a dalších odborníků pracujících s prostorovými daty.
MS Excel
Výsledky, které generuje nástroj vytvořený v ArcGIS Pro Model Builder, jsou prezentovány v podobě Excelových tabulek. Tyto tabulky obsahují informace o sousednosti jednotlivých polygonů, kde hodnota 1 indikuje, že dané využití území se vyskytuje v sousednosti s daným polygonem a tyto hodnoty společně tvoří transakce. Výstup z tohoto nástroje lze tedy označit jako transakční tabulky. Pro tvorbu takovýchto tabulek byl využit program Microsoft Excel. Data v tomto formátu jsou dále použitelná v programu Orange. Program byl rovněž využit pro tvorbu tabulkových a grafových výstupů v rámci práce.
Orange 3.34.0
Orange je open-source software pro dolování dat, který uživatelům poskytuje vizuální programovací prostředí pro analýzu dat a strojové učení. Vyvinula jej Laboratoř bioinformatiky na Univerzitě v Lublani ve Slovinsku a je k dispozici zdarma uživatelům. Software je navržen tak, aby uživatelům pomáhal snadno manipulovat, vizualizovat a analyzovat rozsáhlé soubory dat, aniž by vyžadoval jakékoli znalosti programování.
Zásuvný modul "Associate"
Zásuvný modul "Associate" v aplikaci Orange je výkonný nástroj pro dolování frekventovaných sad a učení asociačních pravidel. Umožňuje uživatelům získávat z dat časté vzory a vztahy a poskytuje řadu měřítek pro hodnocení síly a významu těchto vzorů. Velkou nevýhodou je nemožnost exportu výsledků do strojově čitelné podoby, a tedy nutné ruční zpracování. Z tohoto důvodu bylo od programu Orange po testování upuštěno.
SPMF (Sequential Pattern Mining Framework)
Jedná se o open-source software a knihovnu pro dolování dat napsanou v jazyce Java, která se specializuje na dolování vzorů (objevování vzorů v datech). Je šířena pod licencí GPL v3. Nabízí implementace 254 data miningových algoritmů (Fournier-Viger 2023). Autor program doplnil o rozsáhlou dokumentaci. Každý algoritmus obsahuje odkazy na odbornou literaturu, popis vstupních a výstupních dat, možnou interpretaci výsledků a cvičné datasety pro testování funkcionality. Uživatel nahrává vstupní soubor ve formátu txt, nastavuje umístění pro uložení, specifikuje minimální podporu (Obrázek 1).
Mimo samotný výsledný soubor, který obsahuje podpory pro jednotlivé frekventované sady obsahuje program také tzv. Pattern viewer, který umožňuje filtrovat výsledky. Umožňuje např. nalézt pouze takové frekventované sady, které splňují specifikovanou minimální podporu a obsahují specifický typ využití území (obdobně jako v programu Orange). Níže jsou vyfiltrovány pouze sady obsahující lesy (hodnota 31000).
FI.ipynb
V rámci konzultací s expertem na data mining panem Tai Dinh z Univerzity Kyoto v Japonsku byl pro potřeby generování frekventovaných sad poskytnut Jupyter Notebook (dříve IPython notebook), což je webové interaktivní výpočetní prostředí, které lze použít k vytváření dokumentů obsahujících jak počítačový kód (např. Python), tak jiné textové prvky. Notebook FI.ipynb je implementací algoritmu negFIN s možností hromadného zpracování dat (Příloha Jupyter Notebook).
Použitá data
V rámci práce je vybráno 100 evropských měst. Výběr probíhal obdobně jako v diplomové práci (Janoušek 2019), kdy byla vybrána města v rozsahu počtu obyvatel 50 000-200 000 obyvatel. Tento rozptyl je v datové sadě nejčetnější a obsahuje města z většiny států. Vstupní data neobsahují údaj o počtu obyvatel a z tohoto důvodu byl převzat ze statistik Eurostatu. Důvodem k omezení velikosti měst byla následná potřeba srovnatelnosti výsledků.
Menší část (22) tvoří města ze studie Experiment k nalezení podobných evropských měst s použitím data Urban Atlasu (Dobesova 2020). Výsledkem výzkumu bylo odhalení vzorců a podobností mezi městy na základě jejich uspořádání využití území. Výsledky tvoří vždy dvojice podobných měst. Tato data budou využita k porovnání získané podobnosti v rámci studie a aplikace metody frekventovaných sad v případové studii 5.4 Porovnání s výsledky studie (Dobesova 2020).
Postup zpracování
Prvním krokem byla rešerše odborné literatury a konzultace s odborníkem na data mining p. Tai Dinh. Následně byl navržen postup zpracování.
Obrázek 3 Schéma postupu zpracování.
Před samotnou analýzou dat a data miningem bylo potřeba vytvořit nástroj v rámci ArcGIS Pro, který by generoval data vhodná pro použití v data miningu. Celkem byly navrženy 3 nástroje, ze kterých po testování výkonosti a správnosti výsledků byl vybrán nástroj SearchDistinctLanduse_SpatialJoin blíže představený v kapitole 4.3 Implementace nástroje pro přípravu kategoriálních a dichotomických dat. Tento nástroj umožňuje převádět prostorová data, do formátu, který je kompatibilní s programem Orange, SPMF a Jupyter Notebookem FI.ipynb. Výstupem nástroje jsou tabulková transakční data, jejichž struktura je blíže představena v kapitole 4.3.3 SearchDistinctLanduse_SpatialJoin. Celkově vytvoření tohoto nástroje výrazně usnadňuje práci s prostorovými daty a zvyšuje efektivitu jejich analýzy a umožňuje aplikaci metody frekventovaných sad. Původně zamýšleným programem pro samotný data mining byl program Orange. Ten se ale ukázal jako neaplikovatelný z důvodu nemožnosti exportovat výsledky do strojově čitelné podoby. Data mining probíhal v prostředí programu SPMF a Jupyter Notebooku FI.ipynb.
Následně byla data vybraných měst stáhnuta ze stránek Urban Atlas. Pro každé město byla vyříznuta pouze oblast urbánního jádra (urban core) pro rok 2018. K tomu byl implementován script v jazyce Python – Batch Clip (Urban Atlas). Následně byla pomocí realizovaného nástroje vypočítána transakční data sousednosti pro další analýzu. Zadání práce specifikuje vytvoření kategoriálních nebo dichotomických dat, z tohoto důvodu je výstupem programu jednak textový soubor a také soubor MS Excel.
Frekventované sady byly vypočítány pomocí programu FI.ipynb. Následně byly odstraněny duplicity pomocí scriptu Aggregation (4.6 Příprava dat pro případovou studii – evropská města). Frekventované sady byly graficky zpracovány go podoby tabulky (Obrázek 9) s podbarvením odpovídajícím legendě Urban Atlas s použitím scriptu TXT_TO_EXCEL a podmíněného formátování. Script převání vypočítané textové soubory programu FI.ipynb do výsledné excelové tabulky. Jednotlivé listy souboru obsahují vybraných 100 měst s vypočítanými frekventovanými sadami sousednosti využití území s minimální podporou 5 %.
Prvním cílem bylo představení možné intepretace zjištěných frekventovaných sad, což bylo provedeno na náhodné dvojici měst Cheltenham a Prešov. Byly identifikovány typické frekventované sady sousednosti doplněné o mapové výřezy a slovní popis. Nejedná se o podobná města, kapitola má za cíl představit možnou interpretaci výsledků.
V návazné části byly provedeny tři případové studie. První se zaměřovala na česká města a jejím cílem bylo popsání charakteru všech 15 českých měst v rámci datasetu Urban Atlas 2018. Cílem bylo komplexně popsat charakter českých měst jako celku. Druhá se zaměřovala na vybraných 100 evropských měst, z nich část tvořily dvojice podobných měst zjištěných v rámci studie (Dobesova 2020). Cílem třetí případové studie bylo potvrdit skupiny podobných měst v rámci studie (Dobesova 2020). Cílem bylo nalezení podobností mezi vstupními daty. Tyto podobnosti byly představeny v rámci kapitol 5.3 Případová studie – evropská města a 5.4 Porovnání s výsledky studie (Dobesova 2020).