Verzameling en analyse van data (SPR 2019-2022)

Met het (Strategisch Programma RIVM)-thema "Verzameling en analyse van data" wil het RIVM investeren in recent ontwikkelde methoden om het verzamelen en analyseren van grote hoeveelheden data te verbeteren en te vergemakkelijken.

Wetenschappelijk onderzoek is van wezenlijk belang voor het RIVM om te kunnen bijdragen aan de volksgezondheid en een gezonde leefomgeving. Dit onderzoek genereert veel data, die vervolgens moeten worden geanalyseerd. De kwaliteit van het onderzoek - en daarmee de bijdrage van het RIVM - hangt sterk samen met de kwaliteit van de data en de gegevensanalyses.

Dataverzameling

Voor veel onderzoeksgebieden van het RIVM is het niet altijd mogelijk om experimentele of observationele data te verzamelen. Naast ethische, juridische en financiële kwesties speelt de manier van data verzamelen daarbij ook een rol. Zo is de huidige gouden standaard voor het verzamelen van gezondheidsgegevens gebaseerd op gedetailleerde enquêtes, maar deze zijn tijdrovend en kunnen in sommige gevallen een vertekend beeld geven. Recente meettechnieken, bijvoorbeeld sensoren, kunnen objectieve en gedetailleerde gegevens opleveren en ze kosten de deelnemers minder tijd. Daarnaast zijn er ook alternatieve databronnen beschikbaar gekomen, zoals supermarktgegevens om voedselconsumptiepatronen te bestuderen, en satellietgegevens om de blootstelling aan luchtverontreiniging te volgen.
Het RIVM wil zicht krijgen op welke technologieën bruikbaar zijn voor het RIVM om tot een betere gegevensverzameling te komen.

Data-analyse

Recente technologische ontwikkelingen, zoals sensoren, Next Generation Sequencing (NGSNext Generation Sequencing), en -omics-technieken, leveren steeds meer en complexere data op (big data). Om deze grote hoeveelheden data te kunnen analyseren zijn nieuwe methoden nodig. Te denken valt hierbij aan machine learningtechnieken, methoden voor statische voorspelling en NGS-algoritmen. Het RIVM wil onderzoeken welke technieken geschikt zijn voor het RIVM en zich hierin bekwamen.

Lopend onderzoek

De volgende onderzoeken vallen onder "Verzamelingen analyse van data". Elk onderzoek valt ook onder een inhoudelijk thema, dat bij het onderzoek zelf wordt vermeld.

Wat

Het RIVM Rijksinstituut voor Volksgezondheid en Milieu maakt per jaar gemiddeld twee tot vier apps voor mobiele telefoons. Om ervoor te zorgen dat nieuwe apps en de gegevens die ze nodig hebben van goede kwaliteit zijn, wil het RIVM een algemene aanpak met bijbehorend instrumentarium ontwikkelen: de App Fabriek.

Waarom

Deze aanpak kan de professionele uitstraling van RIVM-apps vergroten en daarmee en het vertrouwen in de apps zelf. Ook maakt dit project het besparen van ontwikkelings- en onderhoudskosten mogelijk.

Hoe

Het beoogde resultaat is een basisversie die uitgebreid kan worden met extra functionaliteiten. De ontwikkeling en het testen van de basisversie gaat in nauwe samenwerking met toekomstige gebruikers van de App Fabriek (medewerkers en samenwerkingspartners van het RIVM) en met toekomstige eindgebruikers van de te ontwikkelen apps (burgers, onderzoeksdeelnemers).
Onderzoekers en beleidsmakers kunnen de basisversie gebruiken voor hun onderzoeksprojecten of tijdens incidenten.

Dit project valt ook onder het thema "Blootstelling en gezondheidseffecten".

Wat

Het RIVM Rijksinstituut voor Volksgezondheid en Milieu Rijksinstituut voor Volksgezondheid en Milieu onderzoekt hoe wordt gereageerd op incidenten in de leefomgeving die sterk in de belangstelling staan en waarbij ‘veiligheid en/of gezondheid’ ter discussie staan. Wanneer vinden het RIVM en partners dat er goed mee wordt omgegaan? En welke interventies, inclusief communicatiestrategiën, bestaan daarvoor? Met de resultaten kunnen overheden beter reageren. Zo kan de gezondheid van mensen beter worden beschermd en het vertrouwen in de overheid worden behouden.

Waarom

Veel gevaren in onze leefomgeving bedreigen potentieel de veiligheid, gezondheid en het welzijn van mensen. Aardbevingen in Groningen, uitstoot van industriële installaties, hittegolven, uitbraken van infectieziekten, enzovoort. Belanghebbenden verschillen echter van meningen over welke problemen moeten worden aangepakt en welke potentiële gezondheids- en veiligheidsrisico’s er zijn. Hetzelfde geldt voor het gevoel van urgentie om te handelen en welke interventies geschikt zijn.

Hoe

Door terug te blikken op verschillende casussen waarbij het RIVM was betrokken, kunnen de volgende vragen worden beantwoord: bij welk ‘type’ situaties wordt het RIVM betrokken? Welke overtuigingen (zogeheten ‘policy belief systems’) hebben RIVM’ers en partners over ‘goed crisis- en incidentmanagement’? Een analyse van uitingen op social media draagt bij aan een ‘denkkader’/ toolbox die betrokkenen ondersteunt om optimaal te reageren bij gevaren in de leefomgeving.

Dit project valt ook onder het thema "Safety en security" en het ondersteunende thema "Perceptie en gedrag".

Naam onderzoek: Causal Exposome Effect in Epidemiological Studies (CEES)

Wat?
Welke nieuwe statistische onderzoeksmethodieken kunnen we gebruiken voor analyses van de effecten van de leefomgeving op de gezondheid van de mens? Deze methoden worden verkend in dit project.

Waarom?
Het onderzoek met microbestanden van het (Centraal Bureau voor de Statistiek) is de afgelopen jaren sterk ontwikkeld. Dat komt onder andere omdat het aantal onderling koppelbare bestanden is toegenomen. Vooral in het economische domein is een aantal nieuwe statistische methodieken ontwikkeld voor observationeel onderzoek en onderzoek gericht op interventie. Het RIVM gebruikt deze methodieken nog weinig. Het is belangrijk om deze nieuwe inzichten onder de aandacht te brengen van epidemiologen van het RIVM. Ze bieden namelijk kansen om mogelijke nadelen van het toenemende gebruik van gezondheidsregistratiegegevens op te vangen.

Hoe?
Er wordt geïnventariseerd welke methoden er bestaan in de statistiek voor het schatten van causale effecten. En op welke modellen (in het bijzonder op welke aannames) en types van data/informatie/kennis deze berusten. Vervolgens wordt bekeken hoe deze methoden werken en welke data, informatie en kennis nodig zijn. Ook kijken we in hoeverre deze methoden toegepast kunnen worden op projecten binnen het RIVM. Ten slotte wordt gekeken welke nieuwe inzichten deze methoden en technieken leveren, in vergelijking tot de traditionele methoden.

Naam onderzoek: Digitale Controle Afmetingen Verpakkingen En Aanduidingen Tabaksproducten (D-CAVEAT)

Wat?
Dit project heeft drie doelen:

Controles op tabaksverpakkingen versnellen
Controleerbaarheid van de resultaten te verhogen
De bewijslast waarborgen

Dit kan bereikt worden door het proces te automatiseren met behulp van automatische beeldherkenning. Met de juiste software kunnen de relevante formaten van waarschuwingsbeelden en -teksten op tabaksverpakkingen worden geanalyseerd en vergeleken met de wettelijk voorgeschreven waarden. Resultaten worden automatisch gedocumenteerd en gerapporteerd.

Waarom?
Het RIVM voert in opdracht van de Nederlandse Voedsel- en Warenautoriteit de wettelijke controle uit op verplichte afbeeldingen en teksten op verpakkingen van tabaksproducten. Op dit moment worden de waarschuwingen handmatig beoordeeld en opgemeten. Dit proces kost veel tijd. Automatisering van de metingen en verslaglegging versnelt het proces, verhoogt de controleerbaarheid en waarborgt de bewijslast.

Hoe?
Er wordt verkend welke geschikte beeldherkenningssoftware voor het beoordelen van verpakkingen van tabaksproducten er zijn. Vervolgens worden die geëvalueerd en getest. Als er geen geschikte software beschikbaar is, ontwikkelt de externe partner geschikte software. Dan volgt het opzetten van een prototype en uitvoeren van eerste metingen. Gevolgd door het opstellen van een protocol om de analyses onder accreditatie uit te voeren.

Wat

Het RIVM Rijksinstituut voor Volksgezondheid en Milieu onderzoekt waarom mensen die in de buurt van intensieve veehouderij wonen vaker infecties aan de onderste luchtwegen hebben. Doordat zij aan meerdere stoffen en aan micro-organismen tegelijkertijd blootstaan, is het moeilijker om oorzaak en gevolg te bepalen. Het RIVM ontwikkelt daarom nieuwe methoden om de effecten op de gezondheid te bepalen wanneer mensen aan meerdere bronnen tegelijk blootstaan.

Waarom

In gebieden met intensieve veehouderij bevat de lucht verhoogde concentraties van fijnstof, van chemische stoffen zoals ammoniak en van besmettelijke micro-organismen. Mensen die in de omgeving van geitenhouderijen wonen blijken een grotere kans te hebben om infectieziekten te krijgen. In het onderzoek ligt de nadruk op de luchtwegen, omdat mensen de ziekmakende stoffen inademen en de effecten vooral in de luchtwegen optreden. Intensieve veehouderij wordt hier gebruikt als voorbeeld om later de technieken en modellen ook op andere situaties toe te gaan passen.

Hoe

Het onderzoek maakt gebruik van bestaande luchtmeetnetten en onderzoekscohorten, zoals de Pienter-cohorten, en van laboratoriumonderzoek (in-vitromodellen). Ook zijn nieuwe methoden nodig om grote hoeveelheden complexe data te analyseren (in-silicomodellen). Deze zullen worden ontwikkeld met behulp van bioinformatica en machine learning, in samenwerking met het AMALGAM-project.

Dit project valt ook onder het thema "Blootstelling en gezondheidseffecten".

Naam onderzoek: Federated Learning

Wat?
Hoe kunnen we data analyseren én ons aan de (algemene verordening gegevensbescherming)-richtlijnen houden? Dit kan mogelijk door Federated Learning. Het RIVM wil hiermee ervaring opdoen.

Waarom?
Onder de huidige AVG-wetgeving zijn organisaties steeds meer terughoudend met het delen van data. Uit angst voor schending van privacy kiezen organisaties er al snel voor om helemaal geen data te delen. De uitdaging is het verkennen en implementeren van constructies waarbij het delen van data vermeden wordt. Maar waarbij tegelijkertijd het technisch toch mogelijk is om de data te analyseren.

De afgelopen jaren zijn er nieuwe IT-ontwikkelingen om met dit probleem om te gaan. De meest bekende is die van de “Personal Health Train” (PHT). Dat is een infrastructuur waarbij de data beveiligd opgeslagen zijn bij de afzonderlijke eigenaren. Andere partijen kunnen die niet bekijken. Maar onderzoekers kunnen wel via een centrale server een algoritme starten dat bij de eigenaren berekeningen doet en resultaten weergeeft. Wanneer zo’n aanpak een Machine Learning (ML) algoritme betreft, is dat “Federated Learning”. Velen zien dit als een goede manier om berekeningen te doen zonder AVG-richtlijnen te schenden.

Hoe?
Met dit project willen we kennis en ervaring op doen met Federated Learning. We willen begrijpen hoe het concept werkt en onder welke omstandigheden dit concept (niet) succesvol kan zijn. We zoeken kennis op meerdere vlakken:

Machine Learning: hoe goed werken algoritmen in de context van Federated Learning?
Informatiebeveiliging (IB): hoe kan men garanderen dat er geen (persoons)gegevens lekken? Of dat er een persoon herleidbaar wordt?
(Informatie- en communicatietechnologie) Recht & Ethiek: Zijn er juridische en ethische struikelblokken met betrekking tot Federated Learning?

Wat?
We onderzoeken of groepen betaalbare sensoren zonder individuele kalibratie ingezet kunnen worden in Nederland. Individuele kalibratie betekent dat de metingen van elke sensor vergeleken worden met de waarden van een betrouwbaar referentie-instrument. En, waar nodig, gecorrigeerd kunnen worden voor afwijkingen. De kalibratie van meerdere sensoren kost vaak veel tijd. In dit project ontwikkelen we een generiek kalibratiemodel om het ruwe signaal van een hele groep sensoren tegelijk naar een betrouwbare meetwaarde om te rekenen. Hierbij is ook inzicht nodig in de betrouwbaarheid van deze sensoren. Van belang is onder andere de vraag hoeveel sensoren op één meetpunt nodig zijn om tot de gewenste meetnauwkeurigheid te komen.

Waarom?
Het huidige Landelijk Meetnet Luchtkwaliteit (LML) maakt gebruik van referentie-instrumenten die op strategisch gekozen locaties zijn geplaatst. Het is vanwege de omvang en betaalbaarheid niet haalbaar om de dekking van het (Landelijk Meetnet Luchtkwaliteit) te vergroten door veel extra instrumenten aan te schaffen en op nieuwe locaties te plaatsen. De verwachting is dat de komende jaren vooral in steden en rondom natuurgebieden vanuit overheden en burgers veel vraag is naar extra metingen met betaalbare sensoren. De uitdaging is om uiteindelijk snel en zonder voorbereidend werk zoals kalibraties, op gewenste locaties betrouwbare metingen met deze sensoren uit te voeren.

Hoe?
De studie moet een aanbeveling opleveren of het haalbaar is om, zonder uitgebreide testfase, groepen van goedkope sensoren in te zetten voor het zinvol meten van luchtkwaliteit op een gewenste locatie.

Als dit zo is, wordt er een prototype kalibratiemodel opgeleverd dat toepasbaar is op groepen van sensoren op verschillende locaties. Ook maken we een beschrijving van het kalibratiemodel met specificatie.

Wat
In dit onderzoeksproject wordt de toepassing onderzocht van innovatieve digitale methodieken om een directe en snelle informatie-uitwisseling met - en tussen burgers te bewerkstellingen. De onderzochte methodieken zijn (onder andere) relevant voor follow-up dataverzamelingen (zoals in cohort studies) en bij het bron- en contactonderzoek (BCO) in het kader van infectieziektebestrijding.

Waarom
In tijden van crisis is efficiënte communicatie en informatie-uitwisseling met burgers van cruciaal belang om snel, doelgericht en effectief te kunnen handelen. Echter, tijdens de huidige COVID-19 pandemie is gebleken dat de capaciteit voor communicatie en informatie-uitwisseling tussen (lokale) overheid en burgers onder druk staat. Innovatieve methoden om deze processen te faciliteren en efficiënter te maken zijn hierdoor gewenst. Een concreet voorbeeld hiervan is het bron- en contactonderzoek (BCO), dat wordt uitgevoerd door (Gemeentelijke Gezondheidsdienst) ’en. GGD-medewerkers zijn verantwoordelijk voor het in kaart brengen van mensen die in contact zijn geweest met een corona-patiënt met als doel om de verdere verspreiding te voorkomen

Hoe
Dit onderzoeksproject bestaat uit twee werkpakketten. In WP1 gaan we middels kwalitatieve (interviews) en kwantitatieve (online vragenlijsten) methoden de behoeften van burgers inventariseren omtrent het toepassen van digitale methodieken om het (Bron- en contactonderzoek) te ondersteunen. Aanvullend bekijken we met welke methodieken contactnetwerken het beste digitaal kunnen worden uitgevraagd bij burgers. In WP2 onderzoeken we kwantitatief de toepassing van digitale methodieken in de praktijk, door het gebruik en de ervaren meerwaarde van de BCO-app (‘GGD Contact’).

Wat

Het RIVM Rijksinstituut voor Volksgezondheid en Milieu wil methoden ontwikkelen om met grote hoeveelheden data (big Wet op de beroepen in de individuele gezondheidszorg data) om te gaan. Het onderzoek spitst zich toe op het inzetten van machine learning en het analyseren van data die Next Generation Sequencing (NGS Next Generation Sequencing ) oplevert met het accent op data van het microbioom. Hiermee ondersteunt AMALGAM drie andere projecten van het SPR Strategisch Programma RIVM -thema "Blootstelling en gezondheid": COMPAIR, COMPLEXA, en TRIUMPH. AMALGAM is valt ook onder het SPR-thema "Verzamelen en analyseren van data"

Waarom

Door de digitalisering van de samenleving ontstaan veel grote datastromen en datasets met waardevolle informatie voor de taken van het RIVM. Ook binnen het RIVM neemt de hoeveelheid informatie toe door het gebruik van nieuwe technologieën, zoals NGS. Het RIVM wil dan ook meer kennis van en ervaring met de analyse van dergelijke data opdoen.

Hoe

Om te beginnen wordt verkend welke statistische en machine learning-methoden beschikbaar zijn. Daarna wordt de methode geselecteerd die het meest geschikt lijkt en wordt deze getest met bij het RIVM beschikbare gegevens. Hiervoor worden gegevens gebruikt die ook in de projecten COMPAIR, COMPLEXA en TRIUMPH worden geanalyseerd. De microbioomgegevens van deze projecten komen pas later beschikbaar. Ook zullen de gegevens van de VEGA-studie (microbioom van vegetariers en vleeseters) worden gebruikt.

Dit project valt ook onder het thema "Blootstelling en gezondheidseffecten".

Naam onderzoek: MachIne learninG for Risk Assessment in Toxicology and bIOtechNology (MIGRATION)

Wat?
We ontwikkelen nieuwe methoden om risico’s te beoordelen van chemische stoffen en toepassingen van biotechnologie. Dit doen we door het toepassen van grote datasets en machine learning (ML). Op die manier ontwikkelt de risicobeoordeling mee met de innovaties op het gebied van stoffen en biotechnologie. Hiermee bouwen we onze kennis op dit vlak op. Ook krijgen we hierdoor inzicht in hoe we deze methodieken kunnen toepassen bij ons werk. En kunnen we toepassingen hiervan door anderen beter beoordelen.

Waarom?
Een kerntaak van het RIVM is het beoordelen van risico’s van chemische stoffen en het gebruik van moderne biotechnologie. Dat zorgt voor verschillende uitdagingen. Voor stoffen zijn dit de enorme hoeveelheid, variaties en combinaties van stoffen en toepassingen. Bovendien zijn er enorm veel datasets en wordt machine learning (ML) steeds meer gebruikt. Ook is de tijdsdruk hoog door de economische noodzaak om zaken zo snel mogelijk in de markt te zetten. Dit alles vraagt om een vernieuwing van de risicobeoordelingsmethodiek. Daarbij ligt de nadruk steeds meer op het zo vroeg mogelijk identificeren van mogelijke risico’s van stoffen. Of van toepassingen van moderne biotechnologie.

Hoe?
Het project richt zich op chemische stoffen en toepassingen in de biotechnologie:

Voor chemische stoffen wordt onderzocht of we modellen en technieken kunnen ontwikkelen met behulp van grote datasets en ML. Hiermee willen we schadelijke stoffen identificeren. En nagaan welke meest relevante stofeigenschappen geassocieerd worden met specifieke toxische effecten van een stof.
Voor toepassingen in de biotechnologie bouwen we kennis op over het gebruik en de mogelijkheden van bestaande datasets en ML-modellen bij de risicobeoordelingen. Ook wordt een mogelijke aanpak gedemonstreerd.

Dataverzameling

Data-analyse

Lopend onderzoek

App Fabriek Meer informatie

Wat

Waarom

Hoe

Bouwen aan robuuste interventies met oog voor de samenleving (BASICS) Meer informatie

Wat

Waarom

Hoe

Nieuwe onderzoeksmethoden voor schatting van causale effecten Meer informatie

Automatische beoordeling van tabaksverpakkingen Meer informatie

Effecten van intensieve veehouderij op de luchtwegen (COMPAIR) Meer informatie

Wat

Waarom

Hoe

Data-analyse zonder privacy te schenden Meer informatie

Automatisch nauwkeurig meten met groepen luchtkwaliteitssensoren Meer informatie

IZB 2.0. Meerwaarde en mogelijkheden van nieuwe digitale methodieken voor het actief betrekken van burgers bij infectieziektebestrijding Meer informatie

Machine learning voor de analyse grote hoeveelheden data (AMALGAM) Meer informatie

Wat

Waarom

Hoe

Nieuwe methoden om risico’s van chemische stoffen en moderne biotechnologie te beoordelen Meer informatie

Deel deze pagina