Werkwijze

Eenvoudig uitgelegd

Van bron naar voorzichtig inzicht

1. Bronnen verzamelen

Het systeem indexeert publieke pagina's, rapporten, nieuws en projectinformatie van geconfigureerde bronnen.

2. Inhoud lezen

Tekst wordt deterministisch geëxtraheerd. JavaScript-pagina's kunnen eerst gerenderd worden, zonder screenshots, OCR of AI-samenvatting.

3. Voorzichtig verbinden

Gecontroleerde termen, domeinankers en bronfragmenten bepalen welke verbanden zichtbaar worden.

Handmatige start, algoritmische groei

Wat is handmatig ingevoerd en wat is algoritmisch ontdekt?

Handmatig ingevoerd als startpunt

Een kleine set organisaties als corpus-startpunt. Definities van domeinankers, een paar tientallen bronfeed-URLs en een klein aantal initiatiefseeds en contextseeds.

Algoritmisch ontdekt

De meeste organisatieprofielen, semantische verbanden, ankermatches, tekstcitaten, samenwerkingsrelaties, geografie-detecties en archetype-suggesties zijn het resultaat van crawlen en deterministische analyse, niet van handmatige invoer.

Geen generatieve AI

Geen LLM, geen embeddings, geen semantisch redeneren door taalmodellen. Alle verbanden zijn reproduceerbaar op basis van bronfragmenten en gecontroleerd vocabulaire.

Evoluerende kennisgraaf

Het corpus groeit stapsgewijs. Verbanden die nu dun of ontbrekend zijn, kunnen sterker worden naarmate meer bronnen geïndexeerd worden. Dit observatorium is een proces, geen afgerond beeld.

Methodologisch

Artefacten, ankers, bewijs en onzekerheid

Artefacten

Een artefact is een geïndexeerde bronvermelding: bijvoorbeeld een pagina, artikel, rapport of projectbeschrijving.

Domeinankers

Domeinankers zijn gecontroleerde begrippen zoals digitale geletterdheid, onderwijs-AI of privacy en veiligheid. Nederlandse en Engelse termen kunnen naar hetzelfde anker wijzen.

Onderbouwing

Verbanden worden alleen sterker wanneer ze terug te voeren zijn op bronfragmenten. Seed-only verbanden blijven voorzichtig.

Confidence en publication confidence

Interne patronen kunnen sterk lijken, maar publieke duiding wordt gedempt wanneer de bewijsbasis dun, jong of overlappend is.

Onzekerheid

Legenda voor voorzichtig lezen

Handmatig ingevoerd

Informatie die handmatig als startpunt is ingevoerd: seed-organisaties, domeinanker-definities en bronfeed-URLs. Vormt het geraamte, niet de conclusies.

Publication confidence

Een gedempte publieke zekerheidsscore. Lage scores blijven intern zichtbaar maar worden niet als stevige publieke duiding getoond.

Bewijsbasis

De hoeveelheid en spreiding van geïndexeerde bronnen achter een observatie.

Jonge bewijsbasis

Er is aanwijzing, maar nog weinig herhaling of tijdsspreiding.

Overlappend profiel

Meerdere profielpatronen lijken op elkaar en zijn nog niet goed empirisch te onderscheiden.

Onvoldoende bewijs

Er is te weinig bruikbaar bewijs om publiek te duiden.

Seed-only relatie

Een startverband of redactionele aanname zonder voldoende geobserveerde brononderbouwing.

Geaccepteerde relatie

Een verband bevestigd door expliciete formuleringen in bronfragmenten. Hoger vertrouwen dan een seed-only of co-occurrence relatie.

Wacht op review

Een algoritmisch gedetecteerde relatie of observatie die wacht op menselijke bevestiging voordat ze als geaccepteerd geldt.

Geografisch herkend

Geografische locatie herkend via deterministische tekstmatching. Kan een stad, provincie of regionaam zijn. Minder zeker dan een handmatige seed.

Geobserveerde relatie

Een verband dat ondersteund wordt door geïndexeerde bronfragmenten maar zonder expliciete partnerschapsformuleringen.

Technisch kort

Geen generatieve AI, wel uitlegbare regels

Deterministische extractie

HTML wordt met vaste regels opgeschoond en omgezet naar bruikbare tekst. Rendered acquisition bewaart rendered_html apart van fetched_html.

Kwaliteitsscore

Lage tekstkwaliteit, lege extractie en boilerplate worden herkend zodat zwakke bronnen minder snel doorwerken.

Controlled vocabulary

Termen, synoniemen, contextwoorden en negatieve termen bepalen ankerherkenning. Er worden geen embeddings gebruikt.

Relatiebewijs

Relaties krijgen uitleg, status en bewijsfragmenten. Seed-only is niet hetzelfde als geobserveerd.

Technisch kort De verwerkingspijplijn stap voor stap

Bronnen crawlen

Geconfigureerde bronfeeds worden periodiek bezocht. Ontdekte URLs worden bijgehouden als discovered_urls en doorlopen een goedkeuringsstap.

Inhoud extraheren

HTML wordt deterministisch opgeschoond naar bruikbare tekst. JavaScript-zware pagina's worden eerst gerenderd. Kwaliteitsscore bepaalt bruikbaarheid.

Artefacten scoren

Relevantie en kwaliteit worden berekend op basis van tekstinhoud, bron-trustniveau en structuurkenmerken. Geen ML-modellen.

Domeinankers matchen

Gecontroleerd vocabulaire bepaalt ankermatch. Confidence per match is gebaseerd op treffer-context.

Relatiebewijs bouwen

Expliciete formuleringen in tekst detecteren samenwerkingsrelaties. Bewijs wordt opgeslagen als snippets en phrasetypen.

Organisatieprofielen

Ankerprofielen aggregeren per organisatie. Archetype-suggesties worden berekend op basis van profielpatronen. Publication confidence dempt zwakke patronen.

Geografische detectie

Steden en provincies worden via tekstherkenning gedetecteerd. Handmatige seeds worden nooit overschreven door algoritmische detectie.

Menselijke review

Auto-review accepteert of quarantaineert artefacten op basis van drempelwaarden. Alles boven of onder de drempel gaat naar menselijke review.

Beperkingen

Wat je niet uit deze site moet afleiden

Deze site zegt niet wie belangrijk, leidend of invloedrijk is. De dekking is niet volledig, de bronselectie groeit nog en sommige pagina's zijn moeilijk automatisch te lezen. Zie patronen daarom als voorzichtige indicaties binnen het huidige corpus.

Hoe Dutch Observatory werkt