Data Scopes
Met de grote digitale corpora en digitale tools die tegenwoordig beschikbaar zijn, stellen geesteswetenschappers in staat een breed spectrum van onderzoeksvragen te lijf te gaan. Meestal komen hieraan de nodige data transformaties te pas: verzamelen en selecteren van onderzoeksmateriaal (documenten, teksten, archiefstukken etc), extraheren en modelleren van de relevante data die ze bevatten, opschonen en normalisatie van die data en linken van verspreide informatie, zowel binnen het corpus als naar externe resources. Deze transformaties hebben hun weerslag op de aard van de data en beargumenteerde keuzes vereisen interpretaties. Wij ontwikkelen Data Scopes als instrument om dit transformatieproces transparant te maken en expliciet te verbinden met de onderzoeksvragen.
Het Data Scopes instrument heeft verschillende componenten:
Meerlagige publicaties
Computational humanities research heeft het onderzoeksproces veranderd, maar hoe wordt dit meegenomen in hoe we ons onderzoek publiceren? Een conventioneel narratief richt zich wel op hoe de gegevens uit verspreide documenten ons nieuwe perspectieven en inzichten geven, maar laat de vele databewerkingsstappen die zijn genomen buiten beschouwing.
Een van de vragen die Data Scopes wil beantwoorden is hoe we digitaal onderzoek kunnen publiceren in verschillende lagen en zo het narratief verbinden met de data en het bewerkingsproces.
Annotatielagen
Ieder corpus heeft zijn eigen karakteristieken, die bepalen welke informatie eraan kunnen ontlenen en hoe we die kunnen organiseren in annotatielagen:
- Hoe vertalen de corpuskarakteristieken zich in informatie typen die gebruikt kunnen worden voor de organisatie en toegankelijkheid van het corpus?
- Hoe vertalen we potentiële onderzoeksvragen naar relevante annotatielagen en data query’s voor een corpus?
- Hoe geven we inzicht in wat voor annotatielagen en onderzoeksvragen mogelijk zijn met de data uit het corpus?
Dataschaal
Verschillende hoeveelheden data vragen verschillende manieren van toegang en bewerking:
- Hoe verandert databewerking met verschillende hoeveelheden data?
- Welke methoden zijn effectief bij tientallen documenten, welke bij duizenden of miljoenen? Hoe vertalen we (kwalitatieve) methoden die zijn ontworpen voor kleine hoeveelheden data naar (kwantitatieve) methoden voor grotere hoeveelheden data? Hoe vertalen we methoden die op statistieken uit honderdduizenden documenten berusten naar een corpus met maar een paar duizend documenten (of nog minder)?
- Hoe kunnen we micro- en macro-perspectieven verbinden, op welke schaal switchen we van perspectief en waarom? Waar zitten de transities in relevante aspecten en patronen?
- Hoe kunnen we het best iteratief in en uit zoomen om te switchen tussen micro en macro en tussen kwalitatief en kwantitatief.
Om het Data Scopes instrument te ontwikkelen en te testen, passen we het toe in een aantal projecten, waaronder REPUBLIC (politiek documentatie corpus met verslagen en besluiten), Migrant: Mobilities and Connection (instellingen, beleidsdocumentatie, kaartindices, registers en (verspreide) databases) en Online Repertoirevorming (online boekbesprekingen en discussies).