Metadata & dokumentation

God dokumentation sikrer, at dine data kan forstås, valideres, genbruges – og reproduceres. Det hjælper dig også med at reflektere over dine arbejdsgange og tilpasse din datahåndtering til faglige standarder.

Hvad du skal vide om metadata

Metadata er data om data – dvs. hvordan de blev indsamlet, i hvilket format og under hvilke betingelser. Metadata understøtter søgbarhed, genbrug og langsigtet tilgængelighed.

Metadata bør være:

  • Beskrivende: hvad dataene indeholder

  • Kontekstuelle: hvordan og hvorfor de blev skabt

  • Tilgængelige: ideelt maskinlæsbare og baseret på standardiserede skemaer

Nogle metadata genereres automatisk; andre skal tilføjes manuelt. Følg altid de standarder, der er relevante for dit fagområde.

How to FAIR metadata gif
HowtoFAIR.dk/metadata, DOI:10.5281/zenodo.3712064

Det bedste tidspunkt at indfange metadata er under forskningsprocessen, mens dine data stadig er aktive og friske i konteksten. Tidlig dokumentation hjælper med at sikre nøjagtighed og fuldstændighed og mindsker risikoen for, at vigtige detaljer går tabt senere.

For at andre kan forstå og genbruge dine data, er det vigtigt med dokumentation på studieniveau.  

Studieniveau betyder, at dokumentationen beskriver data i relation til hele studiet eller projektet – altså det overordnede formål, kontekst og design.

Det adskiller sig fra f.eks. filniveau (som handler om, hvordan de enkelte datafiler er struktureret) eller variabelniveau (som beskriver de enkelte felter/spørgsmål).

Eksempler på metadata omfatter:

  • Logfiler fra instrumenter eller software

  • Laboratoriebøger, helst Elektroniske Laboratoriebøger (ELN)

  • ReadMe-filer med nøglerelaterede oplysninger (variable, struktur, navngivningskonventioner, brugt software)

  • Scripts og værktøjer til at tilgå eller analysere data

  • Referencer til relateret litteratur

  • Projektets formål og kontekst

  • Datasæt og oprindelse (f.eks. fra eksisterende databaser)

  • En versionshistorik over ændringer foretaget i dataene

Konsistent filnavngivning og versionsstyring er en vigtig del af metadata og dokumentation. Klare navne og versionskontrol gør det lettere for både dig og andre at tilgå og tilføje filer til deres metadata, og samtidig opretholde en transparent og ansvarlig forskningsregistrering.

Hvorfor det er vigtigt for dig som forsker:

  • Klarhed & findbarhed: Beskrivende filnavne hjælper dig og andre med hurtigt at identificere, hvad en fil indeholder, uden at skulle åbne den.

  • Reproducerbarhed & integritet: Versionskontrol viser, hvordan filer og data udvikler sig over tid, og understøtter gennemsigtig og reproducerbar forskning.

  • Samarbejde: Aftalte navngivningskonventioner gør teamwork lettere og forhindrer fejl forårsaget af dubletter eller forældede filer.

  • Dokumentationsflow: Når filnavne matcher dine metadataregistreringer, er det lettere at krydsreferere filer, spore kilder og forbinde dokumentation med de underliggende data.

Praktiske tips:

  • Brug beskrivende elementer såsom projektnavn, datatype og dato (ÅÅÅÅMMDD) eller versionsnummer (v01v02).

  • Hold navne uafhængige af filplacering.

  • Brug bulk-omdøbningsværktøjer til store datasæt (f.eks. Bulk Rename Utility, Ant Renamer).

  • For kode eller kollaborative tekster: overvej versionsstyringssystemer (f.eks. Git).

En veldefineret strategi for filnavngivning og versionskontrol styrker dine metadata og gør din forskning lettere at administrere, dele og genbruge.

Jorge cham (c) 2012

Opret dine egne filnavnskonventioner i dette dokument.

Når forskningsdata produceres og gøres tilgængelige, er det afgørende, at de ledsages af klar og struktureret dokumentation. En README-fil eller et datasheet fungerer som en vejledning, der sikrer, at data kan forstås, anvendes og genbruges – både af andre forskere og af en selv på længere sigt.

En README-fil er en enkel tekstfil, der ledsager et datasæt eller et projekt. Den giver en introduktion til indholdet, formålet og de vigtigste instruktioner til, hvordan data kan forstås og anvendes.  

Flere discipliner er begyndt at anvende datasheets (eller dataark). Dette er ofte en mere struktureret og detaljeret form for dokumentation. Hvor README-filen giver overblik, går datasheetet i dybden med at beskrive datasættets tilblivelse, egenskaber og begrænsninger.  

Hvorfor er det vigtigt?

  • Forståelighed: Beskrivelser af datasættets indhold, struktur og formål gør det lettere at sætte sig ind i og arbejde med materialet.

  • Transparens og kvalitet: Dokumentationen gør det tydeligt, hvilke metoder, antagelser og begrænsninger der ligger bag data.

  • Reproducerbarhed: Giver andre mulighed for at validere resultater og anvende samme fremgangsmåde i egen forskning.

  • Genbrug og synlighed: Data, der er veldokumenterede, er mere anvendelige og har større sandsynlighed for at blive delt, citeret og anerkendt.

En README-fil eller et datasheet behøver ikke være omfattende, men bør altid indeholde nøgleoplysninger om datasættets formål, indhold, variabler, format og eventuelle begrænsninger. Dette er en enkel investering, der øger både værdien og integriteten af forskningsdata. Se et eksempel på en README fil i DTU Data.

Forskningsdata kan forekomme i mange forskellige former: tekst, tal, databaser, geodata, billeder, mm.

Vælger du åbne og standardiserede formater, øger du chancen for, at både du selv og andre kan tilgå og genbruge dine data i fremtiden – uafhængigt af specifik software eller udstyr. Find og udforsk standarder hos bl.a. FAIR Sharing og The Digital Curation Centre

Læs mere om formatering hos UK Data service.