Strojové učení pomáhá lokalizovat lesní požáry na Aljašce

S rozvojem strojového učení, umělé inteligence, sofistikovanějšího monitoringu a vzdáleného průzkumu Země a s vývojem technologií pro archivaci velkých dat se zlepšuje i monitoring přírodních rizik: mohou vznikat přesnější systémy včasného varování či nástroje pro odhadování rizik. V teorii i praxi se právě tímto zabývá doktorand VŠB-TUO Marek Pecha. Zajímá se o vývoj modelů pro lokalizaci lesních požárů.

Jak jste se dostal k tématu aplikací strojového učení pro lokalizaci lesních požárů na Aljašce?
Byl jsem ve správný čas ve správném týmu na správné univerzitě. Když jsem se po nástupu na doktorské studium na Katedru aplikované matematiky trochu rozkoukal, dostal jsem od svého školitele Davida Horáka za úkol rozšířit PERMON toolbox o modul pro distribuované strojové učení založené na technice zvané SVM (Support Vector Machines). Jednoho dne přišel David a řekl Vaškovi Haplovi a mně, že by rád vyzkoušel, jak obstojí algoritmy profesora Zdeňka Dostála pro řešení klasifikačních úloh. Vašek v průběhu mého druhého ročníku na doktorském dostal místo postdoca na ETH Zurich a já odcestoval do Edinburghu na tříměsíční stáž na The University of Edinburgh, kde jsem v práci na tomto modulu, který jsme mezitím pojmenovali PermonSVM, pokračoval. Před skoro dvěma lety se nám ozval Dr. Richard Mills z Argonne National Laboratory v USA. 

Čím se zabývá Richard Mills?
Richard Mills je jeden z hlavních vývojářů knihovny PETSc, na které je PERMON postavený. Napsal nám, že by rád použil PermonSVM pro lokalizaci lesních požárů ze satelitních snímků na Aljašce. Po několika měsících intenzivní spolupráce se nám povedlo dosáhnout prvních výsledků a prezentovat je na konferenci AGU ’21. Spolupráce se prohloubila natolik, že se minulý rok David s Richardem domluvili, že oba povedou moji disertační práci. David Horák jako hlavní školitel a Richard Mills jako školitel specialista.

Jak strojové učení a případně umělá inteligence mohou pomoci s lokalizací požárů?
V dnešní době je zatím podle mě předčasné, abychom se bavili o umělé inteligenci. To, co dneska nazýváme umělou inteligencí, jsou statistické modely natrénované na velkém množství dat, což obecně označujeme jako strojové učení. Jak říká Tomáš Mikolov, jeden z nejznámějších českých odborníků na tuto oblast, ještě si nějakou dobu na umělou inteligenci musíme počkat, pokud ji někdy budeme mít. Ale abych se vrátil k vaší otázce. Tím, že trénujeme modely na velkém množství dat, dokážeme pak odhadnout výskyt požáru. To označujeme jako inferenci nebo taky predikci.

Je to tak, že díky strojovému učení dokážete požár i jeho lokalitu předvídat, nebo to funguje tak, že pomocí strojového učení zjistíte, kde požár je?
V našem případě spíš kde byl. V tuto chvíli se zabýváme výskytem požárů ex post. Jinými slovy mapujeme území na Aljašce zasažené lesními požáry s využitím satelitních snímků, což pak využívají klimatologové pro monitoring klimatických změn.

Jak to tedy celé vlastně funguje?
Jak jsem už trochu nastínil, musíme nejdříve natrénovat model. V našem případě se jedná o sémantický segmentační model pro multispektrální obrázky (satelitní snímky). Jsou to typy klasifikačních modelů, které přiřadí každému pixelu v obrázku kategorii. V našem případě, zda došlo na části území reprezentovaném pixelem k požáru, či nikoliv. Jenom pro představu, jeden pixel představuje území o rozloze 500 x 500 m2. Kromě prostorové informace pracujeme taky s časovou informací, takže se na pixely díváme v podstatě jako na časové řady, tedy v rámci jednoho roku. 

Co tedy pro takový model potřebujete?
Abychom takový model mohli natrénovat, potřebujeme si vytvořit tzv. trénovací sadu. Pro výběr a stažení satelitních snímků máme napsaný vlastní software využívající Earth Engine a Cloud Platform od Googlu. Jakmile máme satelitní snímky stažené, provedeme vyčištění dat, například odstraníme ty části obrazů, kde byly mraky, nebo ty části satelitních snímků, které byly poškozené kvůli chybám na senzorech. Vzhledem k tomu, že PermonSVM využívá standardní techniky strojového učení, musíme provést transformaci dat. Poté, co máme satelitní snímky transformované, si je rozdělíme do trénovacího a testovacího datasetu. Vzhledem k objemu dat používáme k natrénování modelů superpočítač Summit, který je 5. nejvýkonnější na světě, a trénovací proces akcelerujeme pomocí grafických karet NVidia. Kvalitu modelu ověříme pomocí testovacího datasetu. Provedeme také vizualizaci výsledků. Ta nám slouží k ověření, zda dává predikce smysl, např. jestli algoritmus nedetekoval oheň uprostřed vodní plochy a podobně.

Jak je strojové učení v případě lokalizace požárů na Aljašce přesné?
V tuto chvíli dosahujeme přesnosti kolem 82 procent (IoU metrika), což je považováno za kvalitní model pro takovýto typ aplikace.

Využívají se moderní technologie v případě bezpečnostních rizik čím dál častěji?
Ano. S rozvojem sofistikovanějšího monitoringu a vzdáleného průzkumu Země, zlepšováním technologií pro archivaci velkých dat a s rostoucí popularitou strojového učení se můžeme stále častěji setkávat se stále pokročilejšími nástroji pro monitoring přírodních rizik v reálném čase, systémy včasného varování či vývojem nástrojů pro odhadování rizik.

Podílíte se na projektu v rámci Strategie AV21 České republiky, kde máte na starosti malý tým. Co konkrétně děláte?
Od začátku roku s mými dvěma kolegy Janou Rušajovou a Bohdanem Rieznikovem pracujeme na Ústavu geoniky AV ČR v Ostravě na projektu pro automatickou detekci a klasifikaci typu zemětřesení v reálném čase opět pomocí strojového učení. Jinými slovy snažíme se ze seizmografického záznamu rozpoznat, k jakému typu zemětřesení došlo, jestli došlo k důlnímu otřesu, explozi či tektonickému jevu. Testujeme různé přístupy a naše nejlepší modely dosahují úspěšnosti kolem 98 procent (F1 metrika). Jana Rušajová je naše datová interpretátorka s mnohaletou praxí, která pracuje se světovými kapacitami v oblasti geofyziky a prekurzorů zemětřesení. Má na starosti i datovou akvizici ze seizmických stanic u nás na severní Moravě a ve Slezsku. S Bohdanem Rieznikovem, bakalářským studentem v druhém ročníku na informatice na FEI, máme na starosti programátorskou část projektu. Před 2 měsíci jsme se rozrostli ještě o dva členy Iva a Vítka Wandrolovi. Ivo s námi spolupracuje na metodách pro transformaci dat a Vítek se stal naším dalším programátorem.

Jak jste se dostal k IT, bavilo vás odmalička?
Jak se to vezme. Asi do svých čtyř let jsem byl takový strašpytel. Dokonce jsem se bál zapnout televizi a rádio. Což mi dneska skoro nikdo nevěří. (smích) Pak mi rodičové pořídili malý kazeťák, já jsem si na techniku a elektroniku zvykl. A pak už to byla taková klasika, jako u každého ajťáka a ajťačky. Nejdříve jsem si hrál s webovkami, pak jsme na gymplu měli ještě Python a Javu. S pořádnou algoritmizací jsem se pak setkal až na vysoké škole.

Proč jste se po získání inženýrského titulu rozhodl pokračovat v doktorském studiu?
Řekl jsem si, že programovat ve firmě můžu vždy, tak zkusím doktorské studium. A tak nějak jsem tam vydržel. 

Co vás na doktorském studiu nejvíc baví?
Že mám možnost zapojit se do různých výzkumných aktivit. Samozřejmě než jsem přišel na to, co mi tematicky sedne, tak mi to chvíli trvalo. Aktuálně mě baví, že se podílím na zajímavých projektech buď s kolegy Jakubem Kružíkem a Davidem Horákem z PERMON týmu, nebo se svým týmem v rámci Strategie AV21 na Ústavu geoniky. A po několikaleté odmlce můžu zase cestovat v rámci konferencí či stáží.

Jaké je téma vaší disertační práce?
Je to takové obecné téma. Téma mám na vývoj řešičů a jejich implementace pro úlohy strojového učení.

Spolupracujete s Argonne National Laboratory v USA nějak víc? Na čem konkrétně?
V Argonne National Laboratory mám svého školitele specialistu Dr. Richarda Millse. Kromě toho spolupracujeme ještě s Dr. Zachem Langfordem z Oak Ridge National Laboratory právě na tématu lokalizace lesních požárů.

Jaké jsou vaše plány do budoucna?
Mně se líbí model propojení akademického prostředí a komerční sféry, tak jak jej mají v Americe či v západní Evropě. Do budoucna bych docela rád, kdyby se mi povedlo zůstat jednou nohou na akademické půdě a druhou nohou v komerční sféře. K tomu však musím nasbírat ještě docela dost zkušeností.