
HOE BIOMASSA GEMODELLEER WORD
Pasture Monitor volg 'n soortgelyke prosedure as Otgonbayar (2019) om biomassa te modelleer. In die besonder gebruik ons ook ewekansige-woudregressie om weidingbiomassa te modelleer. Ewekansige woud is 'n masjienleer algoritme wat 'n ensemble tegniek gebruik om óf 'n klassifikasie of regressie uit te voer. Die algoritme skep verskeie besluitbome met behulp van 'n ander monster van die data vir elke boom (ook 'n nodus genoem). Deur verskillende besluitbome te gebruik, kan verskeie prosesse parallel uitgevoer word sonder enige interaksie tussen hulle. Die gemiddelde van alle voorspellings word aan die einde geneem om die finale resultaat te lewer. Hierdie tegniek staan bekend as selflaai en aggregasie ("bagging").

Die gebruik van veelvuldige besluitbome verhoog stabiliteit en verminder afwyking. Die stabiliteit van die ewekansige-woudalgoritme maak dit gewild in projekte met groot datastelle. Maar soos met enige model, sal daar altyd 'n mate van onsekerheid wees. Sommige statistieke wat kan help om hierdie onsekerheid te verduidelik, is die R²-telling en RMSE (sien hier onder vir meer besonderhede).
EWEKANSIGE-WOUDREGRESSIE VIR BIOMASSA-MODELLERING
Pasture Monitor modelleer weidingbiomassa met behulp van 'n ses-stap prosedure
Stap 1: Versamel opleidingsdata
Pasture Monitor se biomassa-model word opgelei met behulp van 'n verwysingsdatastel. Elke monster verteenwoordig die gemiddelde gemete biomassa per weiveld. Monsterversameling het in 2021 begin en gaan weekliks voort. In teenstelling met Otgonbayar (2019) wat 553 biomassa-monsters gebruik het, gebruik ons 'n veel groter verwysingsdatastel. Ten tyde van die skryf hiervan het ons verwysingsdatastel meer as 270 duisend biomassa-monsters bevat; nuwe monsters word weekliks bygevoeg.
Stap 2: Versamel satellietdata
Nog 'n verskil tussen ons metodologie en dié van Otgonbayar (2019) is dat ons gebruik maak van Sentinel-2 en PlanetScope beelde in plaas van Landsat-8 beelde. Die voordeel van die gebruik van Sentinel-2- en PlanetScope-beelde is dat dit 'n baie hoër (3-10 m vs. 30m) ruimtelike resolusie as Landsat-8 beelde en 'n korter herbesoek tyd (1-5 dae in plaas van 16 dae) het. 'n Volledige stel Sentinel-2 (13 bande) en PlanetScope (8 bande) data word verkry en verwerk vir elk van die weivelde waarin die verwysingsmonsters versamel word. Monsters word weggegooi as daar geen beelde beskikbaar is op die dag van hul meting in die veld nie. Beelde wat deur wolke besmet is, word nie oorweeg nie. Pasture Monitor het 'n eie tegniek ontwikkel vir die omskakeling van die Sentinel-2 en PlanetScope spektrale bande in biomassa voorspeller veranderlikes per weiveld wat die effektiefste vir biomassa-skatting is.
Stap 3: Ontwerp die model
Die biomassa-metings is lukraak verdeel in twee afsonderlike stelle data, een vir die opleiding van die model (80% van die metings) en een vir die toets van die model (20% van die metings). Die 80%-opleidingsubstel word gebruik om die ewekansige-woudregressiemodel op te lei.
Stap 4: Toets die model
Sodra dit opgelei is, word die akkuraatheid van die model gekwantifiseer deur die voorspelde biomassa-waardes te vergelyk met die
(20%) onafhanklike stel toetsmetings. Twee maatreëls word gebruik, naamlik die bepalingskoëffisiënt (of R²) en die wortel-van-die-gemiddelde-kwadraatfout (WGKF). R² is 'n statistiese maatstaf van hoe goed die model die werklike data benader. Dit word bereken as die persentasie van die variansie in die afhanklike veranderlike (gemete biomassa) wat deur die onafhanklike veranderlike (satellietbeelde) verduidelik word. R² kan wissel van 0 tot 1, waar 'n waarde van 0 beteken dat die model nie enige variasie in die afhanklike veranderlike verduidelik nie. 'n Waarde van 1 beteken dat die model perfek pas by die data. Oor die algemeen is 'n hoër R² waarde beter, maar kan as volg geïnterpreteer word:
²
-
< 0,20. Baie laag: Dit dui daarop dat die model nie veel van die variasie in die afhanklike veranderlike verduidelik nie. Die model pas nie goed by die data nie.
-
0,20 - 0,40. Laag: Dit dui daarop dat die model sommige van die variasie in die afhanklike veranderlike verduidelik, maar nie veel nie. Die model pas redelik goed by die data.
-
0,40 tot 0,60. Matig: 0,40 tot 0,60. Dit dui daarop dat die model 'n matige hoeveelheid van die variasie in die afhanklike veranderlike verduidelik. Die model pas goed by die data.
-
0,60 tot 0,80. Hoog: Dit dui daarop dat die model 'n groot hoeveelheid van die variasie in die afhanklike veranderlike verduidelik. Die model pas baie goed by die data.
-
> 0,90. Baie hoog: Dit dui daarop dat die model perfek by die data pas. Dit is skaars en kan daarop dui dat die model die data oormatig pas.
WGKF is 'n gewilde maatstaf van modelprestasie omdat dit maklik is om te verstaan en te interpreteer. WGKF word gedefinieer as:

Waar N die aantal monsters is en i die ende-monster is wat in die assessering gebruik word. 'n Lae WGKF-waarde dui daarop dat die model goed presteer. 'n WGKF-waarde van 0 dui daarop dat die model perfek is en dat daar geen fout is tussen die voorspelde en werklike waardes nie. Die voordeel van WGKF bo R² is dat WGKF akkuraatheid rapporteer in die eenhede van die veranderlike wat voorspel word. Byvoorbeeld, vir weidingbiomassa-modellering, dui 'n WGKF van 200 daarop dat die model akkuraat binne 200 kg/ha is. Of anders geïnterpreteer, is die onsekerheid van die model 200 kg/ha.
Stap 5: Pas die model toe
Die finale stap van Pasture Monitor se biomassa-modellering behels die versameling van satellietdata vir alle weivelde in Pasture Monitor se databasis en die toepassing van die biomassa-model op daardie weivelde. Die veronderstelling is dat die akkuraatheid van die voorspelde biomassa dieselfde is as die akkuraatheid wat in die vorige stap gekwantifiseer is. Dit is nie altyd die geval nie en sorg moet geneem word om die onsekerheid van die model (verteenwoordig deur die WGKF) in ag te neem wanneer die voorspelde biomassa-data gebruik word. Hierdie onsekerheid word op die biomassa-per-weiveld-grafiek gerapporteer en daagliks bygewerk. Die volgende afdeling verduidelik die model-onsekerheid in meer besonderhede.
MODELPRESTASIE
Die biomassa-modelleringstappe (sien vorige afdeling) word elke dag toegepas, wat beteken dat die modelprestasie van dag tot dag verskil. Die strooiingsdiagram hier onder toon die verhouding tussen 'n model wat opgelei is met behulp van 80% van die beskikbare monsters en toegepas is op 20% van die monsters wat nie in die opleidingsproses gebruik word nie. Dit wil sê die werklike droë biomassa-waardes (kg/ha) op die x-as van die grafiek is onafhanklik van die data wat gebruik word om die model te bou. Die y-as van die grafiek toon die biomassa-waardes wat voorspel is met behulp van die model.
Die R²-waarde van hierdie model is 0,87 en die RMSE is 188,3 kg/ha.

Die grafiek illustreer dat die model soms biomassa oorskat en onderskat het. In die besonder het oorskatting geneig om in die 1300 tot 2000 kg/ha-reeks voor te kom, terwyl die reeks van onderskatting van 2000 tot 4000 kg/ha is. Maar hierdie oor- en onderskattings is skaars. Op grond van 'n ewekansige steekproef van 30 000 gevalle het onderskattings (met meer as 200 kg/ha) 1 361 (4,5%) keer voorgekom, terwyl oorskattings (met meer as 200 kg/ha) by 1 402 (4,7%) geleenthede voorgekom het.
In 91,8% van die gevalle het die model biomassa binne 200 kg/ha van die werklike biomassa voorspel.
Die akkuraatheid van die biomassa-modellering verander voortdurend namate nuwe biomassa-metings by die opleidingsdatastel gevoeg word. Oor die algemeen behoort die toevoeging van nuwe data die foute te verlaag (omdat die masjienleermodel meer voorbeelde het om uit te leer), maar dit is nie altyd die geval nie, want meer data kan ook meer variasie inbring. Namate meer variasie ingebring word, word die vermoë van die model egter ook om nuwe data te hanteer. Datawetenskaplikes verwys hierna as die robuustheid, of oordraagbaarheid, van die model. CM se model word voortdurend meer robuus en akkuraat namate nuwe weidingmetingsdata by die opleidingsdatastel gevoeg word.
VERWYSINGS
Munkhdulam Otgonbayar, Clement Atzberger, Jonathan Chambers & Amarsaikhan Damdinsuren
(2019) Mapping pasture biomass in Mongolia using Partial Least Squares, Random Forest regression and Landsat 8 imagery, International Journal of Remote Sensing, 40:8, 3204-3226, DOI:
10.1080/01431161.2018.1541110
