Op 9 augustus 2022 is het artikel “Criticizing AERIUS/OPS Operationele Prioritaire Stoffen (Operationele Prioritaire Stoffen) model performance” van Briggs, Hanekamp en Rotgers, gepubliceerd op de website Researchgate. Het betreft geen artikel in een wetenschappelijk vakblad. 

Het RIVM heeft kennis genomen van het artikel. Het artikel behandelt de performance van het OPS Operationele Prioritaire Stoffen (Operationele Prioritaire Stoffen)-model, zoals gebruikt in Aerius, op basis van algemene beschikbare informatie van RIVM op websites of rapporten, aangevuld met detail rapporten over vier validatiestudies. Deze laatste vier rapporten zijn interne RIVM-documenten die ter beschikking gesteld zijn aan de auteurs. Op hoofdlijnen heeft het RIVM de volgende reactie:

Afwijkende evaluatiemethode

Briggs et al. bekritiseren de gebruikte evaluatiemethoden uit de modelvalidaties en introduceren zelf een maat voor modelkwaliteit, de skill. Deze maat wordt (voor zover bij het RIVM bekend) niet gebruikt voor algemene modelvalidaties en tests bij luchtkwaliteit en depositie. In de verschillende tests en validaties van het RIVM worden algemeen erkende en reguliere wetenschappelijke criteria gebruikt om de resultaten mee te beoordelen.

Briggs et al. introduceren een “simple mean model”. Dit model bestaat eruit dat de te verwachten (te modelleren) waarde overeenkomt met het gemiddelde van de observaties. Dit is uiteraard een onwerkbare manier om een waarde te schatten als er geen metingen zijn (bijvoorbeeld voor toekomstige jaren of scenario studies) en is daarmee ongeschikt voor beleidstoepassingen. 

Het is RIVM dan ook niet duidelijk wat auteurs met de skill van het “simple mean model” willen aantonen. Het model heeft namelijk geen voorspellende waarde. De conclusie van Briggs et al. over de “skill” van OPS op basis van een vergelijking met dit “simple model” is volgens het RIVM dan ook niet relevant.

Wetenschappelijke onderbouwing 

De resultaten van een rekentest worden schijnbaar enkel op basis van de hoogte van de resultaten en zonder wetenschappelijke onderbouwing als nutteloos (“useless”) en niet correct beschreven. Deze conclusie deelt het RIVM dan ook niet.

Waar Briggs et al. van mening lijken te zijn dat met OPS vergelijkbare internationale modellen ‘allemaal net zo slecht’ zijn, ziet het RIVM, op basis van de uitgevoerde evaluaties en kentallen dat de modellen juist allemaal (met hun eigen sterkere en mindere punten) goed bruikbaar zijn bij het berekenen van de luchtkwaliteit en depositie.

Verdere ontwikkelingen

Briggs et al. bevelen aan om OPS uitgebreid verder te valideren met metingen. RIVM was, is en blijft daar een groot voorstander van. Waar mogelijk worden nieuwe gegevens dan ook gebruikt voor tests, validatie en verbeteringen.

Het RIVM gaat in het Nationaal Kennisprogramma Stikstof (NKS) van Ministerie LNV Ministerie van Landbouw, Natuur en Voedselkwaliteit (Ministerie van Landbouw, Natuur en Voedselkwaliteit) in samenwerking met internationale experts een onderzoek uitvoeren waarin een aantal operationele modellen waarmee de stikstofdepositie in Europese landen wordt uitgerekend, vergeleken worden.

 

Samenvattend heeft het RIVM in de studie van Briggs et al. geen argumenten gevonden om haar werkwijze en de lopende en voorziene modelontwikkelingen aan OPS aan te passen.


RIVM heeft in meer detail de volgende opmerkingen bij het artikel:

- In de interne documenten is het RIVM zelf kritisch over de performance van OPS in tests en validaties. Hierbij zijn zowel de positieve punten in de vergelijkingen met de metingen genoemd als de negatieve punten. In hun artikel citeren Briggs et al. meerdere keren uit de conclusies en opmerkingen in de stukken van het RIVM. Hierbij worden vooral de negatieve aspecten genoemd, de andere conclusies en opmerkingen worden weggelaten1. De manier waarop details worden uitgelicht doet dus niet altijd recht aan de onderliggende informatie.

- Alle verschillen tussen gemeten en berekende concentraties worden door Briggs et al. aan de kwaliteit van het model toegeschreven. Het is goed te beseffen dat er naast de modelonzekerheden meestal ook grote onzekerheden in de experiment-opzet zelf zijn. Denk aan de hoeveelheid en soort emissies en de manier waarop die vrijkomen. Een deel van de verschillen tussen gemeten en berekende concentraties is dan ook het gevolg van onzekerheden in de beschikbare invoer en niet van intrinsieke aspecten van de gebruikte modellen.

-het OPS-model laat op korte tijdperioden, bijvoorbeeld dagen, een grote ruis in de berekeningen zien, met soms grote afwijkingen ten opzichte van meetgegevens. Dus kan de “performance” in dit opzicht als “poor” geclassificeerd worden. Dit is ook verklaarbaar: juist omdat op die korte tijdschalen de verspreiding heel grillig kan zijn leidt dit soms tot substantiële verschillen tussen berekening en meting. Op langere tijdsperioden, zoals bij maand- of jaargemiddelden, wordt een groot deel van deze grilligheid uitgemiddeld. Het is dus aanzienlijk ingewikkelder om uurlijkse of dagelijkse metingen met berekeningen te reproduceren dan jaarberekeningen. Het OPS-model wordt in Aerius alleen op jaarbasis gebruikt. De conclusies ten aanzien van de “performance” van OPS zoals in het artikel genoemd zijn dus niet zonder meer geldig voor de modelversie van OPS zoals gebruikt in Aerius2.  Briggs et al. maken een punt van het gebruik van (jaar)gemiddelde concentraties in verschillende tests, in plaats van gegevens op de hoogste tijd-resolutie. Bij reguliere berekeningen aan luchtkwaliteit en depositie gaat het echter juist om jaargemiddelde waarden. Het gebruik van gemiddelde waarden in de tests en validaties is dan geen probleem.

- Briggs et al. bekritiseren de evaluatiemethoden uit de validatierapporten. Uiteraard zijn er andere indicatoren mogelijk waarmee modellen geëvalueerd kunnen worden. Maar de gebruikte indicatoren zijn ontleend aan de wetenschappelijke literatuur en worden standaard veel gebruikt in het vakgebied van de luchtverontreiniging (Chang en Hanna (2004), Chang en Hanna (2005)). De gehanteerde evaluatiemethoden liggen ook dicht bij die welke in het kader van het lopende  Europese FAIRMODE project onder leiding van het Joint Research Center worden ontwikkeld (JRC Joint Research Centre (Joint Research Centre), 2022).

- Briggs et al. introduceren een “simple mean model”. Dit model bestaat eruit dat de te verwachten (te modelleren) waarde overeenkomt met het gemiddelde van de observaties. Dit gemiddelde van de metingen is een alternatief voor de resultaten van het model. De “skill” van een model is dan de mate waarin het model “betere” resultaten geeft dan het simpele model. Dit is uiteraard een onwerkbare manier om een waarde te schatten als er geen metingen zijn (bijvoorbeeld voor toekomstige jaren of scenario studies) en is daarmee ongeschikt voor beleidstoepassingen. De meerwaarde van een model is juist dat het model concentraties en deposities kan inschatten als er geen metingen beschikbaar zijn. 

Voor zover bekend wordt de door Briggs et al. gehanteerde “skill” niet bij algemene evaluatie van dispersiemodellen voor luchtkwaliteit gebruikt. In het hierboven genoemde werk van FAIRMODE wordt wel een analoge methode gebruikt om de kwaliteit van korte-termijn voorspellingen van luchtkwaliteit te beoordelen. Er is echter een verschil tussen algemene validatie/test van een model en inzet van een gevalideerd model voor korte-termijn voorspellingen. Het is RIVM dan ook niet duidelijk wat auteurs met hun “skill” willen aantonen, het “simple mean model” heeft namelijk geen voorspellende waarde. De conclusie van Briggs et al. over de “skill” van OPS op basis van een vergelijking met dit “simple model” is volgens het RIVM dan ook niet relevant.

- Briggs et al. hebben een voorbeeldberekening gemaakt waarin de bijdrage aan de depositie op een natuurgebied is uitgerekend met OPS/Aerius ten gevolge van emissies uit een stal en de reductie daarin door de hoeveelheid dieren te reduceren. De bijdrage en de reductie liggen in de orde van enkele molen/ha per jaar. De auteurs concluderen dat dit een te verwaarloze hoeveelheid is en zeer waarschijnlijk niet meetbaar en dat de OPS-berekeningen dus nutteloos (“useless”) zijn. Het statement “a trivial, and likely unmeasurable, number” gaat eraan voorbij dat de hoogte van de berekende waarde niets zegt over de juistheid/verdedigbaarheid van die waarde. Elke activiteit leidt nu eenmaal tot effecten, ook al zijn die klein. De onzekerheid van de berekende (kleine) bijdrage kan groot zijn, zelfs groter dan de waarde zelf, maar dat doet niets af van de berekende waarde. Evenzo zegt de mogelijke meetbaarheid van een waarde, of niet, niets over de waarde van het resultaat, net zomin als de onzekerheden in de kritische depositiewaarden (KDW). De conclusie dat daarmee is aangetoond dat de berekening niet correct is, is eerder persoonlijke interpretatie van Briggs et al.  dan een wetenschappelijke vaststelling en deze conclusie deelt het RIVM dan ook niet. Immers, dat een getal klein is wil niet zeggen dat het niet bestaat. Sterker nog: alle kleine bijdragen van alle bronnen in Nederland maken dat er een hoge achtergronddepositie bestaat. RIVM valideert voortdurend de concentraties en deposities van stikstofcomponenten in Nederland (zie GCN Grootschalige Concentratiekaarten Nederland (Grootschalige Concentratiekaarten Nederland)/GDN Grootschalige Depositiekaarten Nederland (Grootschalige Depositiekaarten Nederland) rapportages op RIVM website). In het algemeen komen de berekende en gemeten concentratiewaarden goed overeen. Er wordt momenteel gewerkt aan het gedetailleerder in beeld brengen van de onzekerheden van individuele bronbijdragen.

- Briggs et al. geven aan dat met OPS vergelijkbare modellen eenzelfde “performance” laten zien. Met andere woorden het OPS-model doet het niet slechter of beter dan andere modellen die gangbaar zijn in de luchtkwaliteit en depositie-berekeningen. Waar Briggs et al. van mening lijken te zijn dat met OPS vergelijkbare modellen allemaal net zo slecht zijn, ziet het RIVM, op basis van de uitgevoerde evaluaties en kentallen dat de modellen juist allemaal (met hun eigen sterkere en mindere punten) goed bruikbaar zijn bij het berekenen van de luchtkwaliteit en depositie. Dit is dan ook de reden dat het OPS-model gebruikt wordt. Hierbij wordt onderkend dat geen enkel model perfect is en er altijd verbeterpunten zijn. Het RIVM gaat in het Nationaal Kennisprogramma Stikstof (NKS) van Ministerie LNV in samenwerking met internationale experts een onderzoek uitvoeren waarin een aantal operationele modellen waarmee de stikstofdepositie in Europese landen wordt uitgerekend, vergeleken worden.

- Briggs et al. bevelen aan om OPS uitgebreid verder te valideren met metingen. RIVM was, is en blijft daar een groot voorstander van. Waar mogelijk worden nieuwe gegevens dan ook gebruikt voor tests, validatie en verbeteringen. 

 

1Een ander voorbeeld van benoemen van resultaten gaat over de data in figuur 10. De opmerking “At observed values around 60μg/m3 kubieke meter (kubieke meter), the model predicts anywhere from about 220 to 230 μg/m3, a huge error.” kan op basis van diezelfde figuur met evenveel recht worden vervangen door “bij gemeten waarden van 75 ug/m3 liggen de modelwaarden tussen circa 63 en 85 ug/m3, een praktisch perfect resultaat.”
2Dit is ook aangegeven in de begeleidende notitie bij het antwoord op het WOB-verzoek.

Referenties