1. Bronnen verzamelen
Het systeem indexeert publieke pagina's, rapporten, nieuws en projectinformatie van geconfigureerde bronnen.
Werkwijze
Dutch Observatory verkent publieke signalen rond AI, digitalisering en onderwijs. Het systeem verzamelt bronnen, herkent thema's en legt voorzichtig verbanden. De uitkomsten zijn geen ranglijst of oordeel, maar een hulpmiddel om ontwikkelingen beter te begrijpen.
Eenvoudig uitgelegd
Het systeem indexeert publieke pagina's, rapporten, nieuws en projectinformatie van geconfigureerde bronnen.
Tekst wordt deterministisch geëxtraheerd. JavaScript-pagina's kunnen eerst gerenderd worden, zonder screenshots, OCR of AI-samenvatting.
Gecontroleerde termen, domeinankers en bronfragmenten bepalen welke verbanden zichtbaar worden.
Handmatige start, algoritmische groei
Handmatig ingevoerd als startpunt
Een kleine set organisaties als corpus-startpunt. Definities van domeinankers, een paar tientallen bronfeed-URLs en een klein aantal initiatiefseeds en contextseeds.
Algoritmisch ontdekt
De meeste organisatieprofielen, semantische verbanden, ankermatches, tekstcitaten, samenwerkingsrelaties, geografie-detecties en archetype-suggesties zijn het resultaat van crawlen en deterministische analyse, niet van handmatige invoer.
Geen generatieve AI
Geen LLM, geen embeddings, geen semantisch redeneren door taalmodellen. Alle verbanden zijn reproduceerbaar op basis van bronfragmenten en gecontroleerd vocabulaire.
Evoluerende kennisgraaf
Het corpus groeit stapsgewijs. Verbanden die nu dun of ontbrekend zijn, kunnen sterker worden naarmate meer bronnen geïndexeerd worden. Dit observatorium is een proces, geen afgerond beeld.
Methodologisch
Een artefact is een geïndexeerde bronvermelding: bijvoorbeeld een pagina, artikel, rapport of projectbeschrijving.
Domeinankers zijn gecontroleerde begrippen zoals digitale geletterdheid, onderwijs-AI of privacy en veiligheid. Nederlandse en Engelse termen kunnen naar hetzelfde anker wijzen.
Verbanden worden alleen sterker wanneer ze terug te voeren zijn op bronfragmenten. Seed-only verbanden blijven voorzichtig.
Interne patronen kunnen sterk lijken, maar publieke duiding wordt gedempt wanneer de bewijsbasis dun, jong of overlappend is.
Onzekerheid
Informatie die handmatig als startpunt is ingevoerd: seed-organisaties, domeinanker-definities en bronfeed-URLs. Vormt het geraamte, niet de conclusies.
Een gedempte publieke zekerheidsscore. Lage scores blijven intern zichtbaar maar worden niet als stevige publieke duiding getoond.
De hoeveelheid en spreiding van geïndexeerde bronnen achter een observatie.
Er is aanwijzing, maar nog weinig herhaling of tijdsspreiding.
Meerdere profielpatronen lijken op elkaar en zijn nog niet goed empirisch te onderscheiden.
Er is te weinig bruikbaar bewijs om publiek te duiden.
Een startverband of redactionele aanname zonder voldoende geobserveerde brononderbouwing.
Een verband bevestigd door expliciete formuleringen in bronfragmenten. Hoger vertrouwen dan een seed-only of co-occurrence relatie.
Een algoritmisch gedetecteerde relatie of observatie die wacht op menselijke bevestiging voordat ze als geaccepteerd geldt.
Geografische locatie herkend via deterministische tekstmatching. Kan een stad, provincie of regionaam zijn. Minder zeker dan een handmatige seed.
Een verband dat ondersteund wordt door geïndexeerde bronfragmenten maar zonder expliciete partnerschapsformuleringen.
Technisch kort
HTML wordt met vaste regels opgeschoond en omgezet naar bruikbare tekst. Rendered acquisition bewaart rendered_html apart van fetched_html.
Lage tekstkwaliteit, lege extractie en boilerplate worden herkend zodat zwakke bronnen minder snel doorwerken.
Termen, synoniemen, contextwoorden en negatieve termen bepalen ankerherkenning. Er worden geen embeddings gebruikt.
Relaties krijgen uitleg, status en bewijsfragmenten. Seed-only is niet hetzelfde als geobserveerd.
Bronnen crawlen
Geconfigureerde bronfeeds worden periodiek bezocht. Ontdekte URLs worden bijgehouden als discovered_urls en doorlopen een goedkeuringsstap.
Inhoud extraheren
HTML wordt deterministisch opgeschoond naar bruikbare tekst. JavaScript-zware pagina's worden eerst gerenderd. Kwaliteitsscore bepaalt bruikbaarheid.
Artefacten scoren
Relevantie en kwaliteit worden berekend op basis van tekstinhoud, bron-trustniveau en structuurkenmerken. Geen ML-modellen.
Domeinankers matchen
Gecontroleerd vocabulaire bepaalt ankermatch. Confidence per match is gebaseerd op treffer-context.
Relatiebewijs bouwen
Expliciete formuleringen in tekst detecteren samenwerkingsrelaties. Bewijs wordt opgeslagen als snippets en phrasetypen.
Organisatieprofielen
Ankerprofielen aggregeren per organisatie. Archetype-suggesties worden berekend op basis van profielpatronen. Publication confidence dempt zwakke patronen.
Geografische detectie
Steden en provincies worden via tekstherkenning gedetecteerd. Handmatige seeds worden nooit overschreven door algoritmische detectie.
Menselijke review
Auto-review accepteert of quarantaineert artefacten op basis van drempelwaarden. Alles boven of onder de drempel gaat naar menselijke review.
Beperkingen
Deze site zegt niet wie belangrijk, leidend of invloedrijk is. De dekking is niet volledig, de bronselectie groeit nog en sommige pagina's zijn moeilijk automatisch te lezen. Zie patronen daarom als voorzichtige indicaties binnen het huidige corpus.