Teadusraamatukogu: E, N 12.00 – 19.00, T, K, R 10.00 – 17.00 | Õpikeskus: E – P 9.00 – 21.00, teeninduslett E – R 9.30 – 16.30
TeadusraamatukoguE, N 12–19, T, K, R 10–17
Õpikeskus: E–P 9–21, teeninduslett E–R 9.30–16.30

Teadusandmed

Käesolevalt lehelt leiad TLÜ Akadeemilise Raamatukogu teadusandmete haldamise juhendi. Juhend täieneb jooksvalt.

Tõhus teadusandmete haldamine (research data management) toetab teadusandmete kasutatavust, usaldusväärsust ja ligipääsu kogu uurimisprojekti vältel ning pärast projekti lõppu. Teadusandmete efektiivne haldamine on oluline nii teaduseetika, tulemuste reprodutseeritavuse kui parema koostöö huvides.

Juhend annab praktilist infot andmete planeerimise, organiseerimise, jagamise ja pikaajalise säilitamise kohta kogu teadustöö elutsükli jooksul.

Teadusandmed hõlmavad igasugust kvalitatiivset ja kvantitatiivset informatsiooni, mida teadustulemuste toetamiseks kogutakse, luuakse või kasutatakse. Teadusandmed võivad tekkida eksperimentidest, vaatlusuuringutest, küsitlustest, intervjuudest, simulatsioonidest, arvutuslikust tööst, tekstide ja objektide analüüsist jne. Andmed võivad olla toorandmed või töödeldud andmed, esineda struktureeritud või struktureerimata, digitaalsel või füüsilisel kujul.

Teadusandmete näited:

  • Numbrilised ja statistilised andmed, nagu mõõtmistulemused, küsitlusandmed või statistikaprogrammide väljundid (nt SPSS-i, R-i või STATA failid).
  • Tekstipõhised andmed, sh tekstikorpused, intervjuude transkriptsioonid, küsimustikud, märkmed jms.
  • Pildi-, heli- ja videofailid (nt digiteeritud arhiivimaterjalid, salvestatud intervjuud, välitööde fotod, mikroskoobipildid).
  • Füüsilised objektid nagu proovid, arhiivimaterjalid, kunstiteosed, erinevad looduslikud ja inimtekkelised objektid.
  • Tarkvara, programmikood ja algoritmid.
  • Metaandmed, mis annavad andmekogude mõistmiseks vajaliku konteksti ja taustainfo.

Kõik uurimisprojektiga seotud materjalid ei ole tingimata teadusandmed. Näiteks töö käigus loodud mustandid, kirjavahetus või asjaajamistega seotud dokumendid võivad olla projekti seisukohalt küll olulised, kuid neid ei käsitleta tavaliselt teadusandmetena. Seetõttu tasub lähtuda andmete rollist: kui andmed aitavad vastata uurimisküsimusele või toetavad uurimistulemusi, tuleks neid käsitleda teadusandmetena.

Kuigi teadusvaldkonniti võib praktika küll erineda, iseloomustab head teadusandmete haldamist üldjuhul sarnane elutsükkel. Allpool toodud punktid annavad üldisema ülevaate; juhendi järgmistes osades käsitletakse igat etappi detailsemalt koos praktiliste nõuannetega.

1) Planeerimine

Defineeri uurimisküsimused ja tee kindlaks, milliseid teadusandmeid projektis kasutatakse. Siin etapis mõeldakse selle üle, kuidas andmeid hakatakse koguma, organiseerima, dokumenteerima, säilitama ja jagama.

Tegevused:
Põhiline fookus võiks olla andmehaldusplaani (data management plan, DMP) loomisel. Struktureeritud andmehaldusplaan annab andmetest selgema ülevaate ning ka mitmed Euroopa rahastajad (nt Euroopa Horisont) nõuavad selle olemasolu. Plaani tuleks ajakohastada ka hiljem, kui projekti järgmistes etappides tekib uut olulist infot.

2) Andmete kogumine või loomine

Kogu ja/või loo andmed projektiks valitud meetoditega (katsed, vaatlused, intervjuud, küsitlused, välitööd, simulatsioonid, olemasolevate andmekogude taaskasutus vms). Tee selles etapis teadlikke otsuseid, sest siinsed valikud – näiteks failivormingud ja metaandmete lisamine – mõjutavad otseselt andmete kasutatavust.

Tegevused:
Andmete loomine ja kogumine, andmesisestus, esmane liigitamine ning vastutuste (nt ligipääs, kes mida kogub jne) kokkuleppimine. Oluline on juba varakult kokku leppida failinimede, kaustastruktuuride jm põhimõtted, et andmed oleksid korrastatud ja jälgitavad.

Palju lihtsam on korralikku struktuuri kohe alguses luua, kui segaseid andmeid lõpus hakata parandama.

3) Andmete töötlemine ja analüüs

Puhasta, valideeri, teisenda ja analüüsi andmeid. Vajaduse korral anonümiseeri või pseudonümiseeri isikuandmed (nt GDPR-i nõuded). Siia etappi kuuluvad näiteks ka salvestiste transkribeerimine, kvalitatiivsete andmete kodeerimine, tuletatud andmekogude loomine jm.

Tegevused:
Andmete puhastamine (vigade ja duplikaatide eemaldamine, puuduvate väärtuste käsitlemine), andmete teisendamine üldkasutatavatesse vormingutesse, järgides FAIR-põhimõtteid ning metaandmete loomine (andmekogu sisu, struktuuri ja päritolu kirjeldamine).

4) Andmete säilitamine ja haldamine projekti ajal

Hoia andmeid turvaliselt, varunda neid regulaarselt ning järgi kokkulepitud failide, kaustade ja ligipääsude struktuuri. Väldi olukorda, kus andmete ainus koopia asub isiklikus sülearvutis või mälupulgal.

Tallinna Ülikoolis hoitakse teadusprojektiga seotud andmeid projekti jooksul ülikooli hallataval OwnCloud või Google Drive platvormil. Kui tegemist on tundlike andmetega, tuleks neid hoiustada Owncloudis. 

5) Andmete avaldamine, jagamine ja arhiveerimine

Valmista andmekogud ette jagamiseks ja avaldamiseks. Talleta need usaldusväärses repositooriumis koos vastava dokumentatsiooni ja litsentsidega, et andmekogud oleksid leitavad, arusaadavad ja neid saaks õigesti taaskasutada. Hinda, milliseid andmeid saad avalikult jagada ja millised peavad jääma piiratud või suletud ligipääsuga (nt isiku- või tundlikud andmed).

Tegevused:
Sobiva repositooriumi valimine (valdkonnapõhine, konkreetse asutuse repositoorium või üldine), dokumentatsiooni ja metaandmete ettevalmistamine, litsentside lisamine ning andmete säilitustähtaegade kokkuleppimine. Kui andmed tuleb hävitada, tuleb tagada nende turvaline kustutamine kõigist asukohtadest (sh varukoopiad).

Sobiva repositooriumi valikut käsitletakse põhjalikumalt juhendi 8. jaotises.

6) Taaskasutus

Jagatud andmekogusid saavad teised taaskasutada tulemuste võrdlemiseks, uute analüüside tegemiseks või muudel eesmärkidel. Hea dokumentatsioon ja selge struktuur muudavad andmekogude taaskasutuse lihtsamaks.

 

Andmehaldusplaan (data management plan, DMP) kirjeldab, kuidas teadusandmeid uurimisprojekti jooksul luuakse, kirjeldatakse, hoiustatakse, kaitstakse, jagatakse ja pärast projekti lõppu säilitatakse. Kuigi andmehaldusplaani koostamine on nõutud erinevate rahastajate poolt, on sellest kasu ka siis, kui see ei ole kohustuslik. Hästi koostatud DMP aitab vähendada riske, toetab teadusandmete pikaajalist kasutatavust ning toetab avatud teadust.

4.1 Mis on andmehaldusplaan?

Andmehaldusplaan on struktureeritud dokument, mis kirjeldab, kuidas projektis kasutatavate teadusandmetega toimetatakse alates nende loomisest kuni pikaajalise säilitamise või hävitamiseni. 

Andmehaldusplaan kirjeldab järgmist:

  • milliseid andmeid kogutakse või luuakse;
  • kuidas andmeid dokumenteeritakse, et need oleksid üheselt mõistetavad (nt metaandmed, README.txt);
  • andmete turvaline hoiustamine, varundamine ja ligipääs;
  • andmeid puudutavad eetilised ja õiguslikud küsimused, sh isikuandmete kaitse;
  • kuidas ja kus teadusandmeid jagatakse, avaldatakse või arhiveeritakse;
  • andmetega seotud rollid, vastutused ja vajalikud ressursid.

Andmehaldusplaani tuleks suhtuda kui elavasse dokumenti ning seda tuleb projekti erinevates etappides uuendada (kui projekti edenedes koguneb uusi andmeid ja/või need paremini selguvad, kui tekivad uued eetilised või tehnilised küsimused jne).

4.2 Andmehaldusplaani põhikomponendid

Kuigi andmehaldusplaanide põhjad (templates) ja rahastajate nõuded võivad erineda, sisaldavad enamik andmehaldusplaane järgmisi komponente:

Andmete kirjeldus

Projekti käigus kogutavate või loodavate andmete kirjeldus:

  • andmetüübid (nt intervjuude transkriptsioonid, küsimustikuandmed, programmikoodid, pildid, mõõtmised);
  • failivormingud (nt CSV, PDF/A, MP4, TIFF, JSON);
  • hinnanguline maht (nt failide arv, maht MB/GB/TB);
  • andmete päritolu (uued andmed, taaskasutatavad andmekogud või muud allikad);
  • andmete organiseerimise põhimõtted (kaustastruktuur, failinimed).

Dokumentatsioon ja metaandmed

Selgitatakse, kuidas projektis kasutatavaid teadusandmeid dokumenteeritakse nii, et need oleksid arusaadavad ja taaskasutatavad.

Siia kuuluvad muuhulgas:

  • metaandmete standardid (nt Dublin Core, DataCite, DDI, TEI);
  • readme-failid (kokkuleppeliselt alati README.txt), mis kirjeldavad andmete sisu, struktuuri, muutujaid, kasutatud tarkvara, failinimede põhimõtteid ning muud konkreetse andmekogu arusaadavuse seisukohast olulist infot;
  • kvantitatiivsete/kvalitatiivsete andmete kodeerimise alane info;
  • versioonihalduse põhimõtted.

Hoiustamine ja varundamine

Siin kirjeldatakse, kus ja kuidas teadusandmeid projekti jooksul hoiustatakse ning kuidas neid kaitstakse.

Kui puuduvad teistsugused välised nõuded (nt projekti juhtiva partneri poolt), kasutatakse projekti käigus andmete hoiustamiseks Tallinna Ülikooli IT-lahendusi: mittetundlike andmete puhul ülikooli hallatavat Google Drive’i ning tundlike või konfidentsiaalsete andmete puhul OwnCloudi.

Enamikel juhtudel peab andmeid:

  • hoiustama turvalises serveris (eriti oluline tundlike andmete puhul)
  • regulaarselt varundama (eelistatult automaatne varundamine mitmesse füüsilisse seadmesse)
  • vajadusel krüpteerima
  • hoiustama nii, et neile pääseks ligi ainult selleks volitatud isikud

Eetilised, õiguslikud ja turvaküsimused

Siin tuvastatakse võimalikud riskid ja nõuded ning kirjeldatakse, kuidas neid hallatakse:

  • isikuandmed ja eriliigilised isikuandmed (GDPR);
  • informeeritud nõusolek, sh luba anonüümsete või pseudonüümitud andmete jagamiseks või avaldamiseks;
  • kasutatud anonümiseerimise ja pseudonümiseerimise meetodid;
  • intellektuaalomandi õigused;
  • vajadusel embargoperioodid;
  • andmete edastamise piirangud (nt pilvepõhiste tehisintellekti tööriistade kasutamine võib tundlikke andmeid tahtmatult lekitada).

Andmete jagamine, ligipääs ja säilitamine

Kirjeldatakse, kuidas teadusandmeid projekti lõppedes jagatakse ja säilitatakse:

  • millised andmed tehakse ligipääsetavaks ja millised jäävad piiratud/suletud ligipääsuga või hävitatakse;
  • millises repositooriumis andmeid säilitatakse (nt DataDOI, Zenodo; vt peatükk 8.2);
  • millised litsentsid andmetele määratakse (nt CC-BY, CC0; vt peatükk 7.3);
  • andmete säilitamise periood.

Rollid, vastutused ja ressursid

Siin määratakse vastutused ja kirjeldatakse vajalikke ressursse, sealhulgas:

  • kes vastutab andmete kogumise, dokumenteerimise, kvaliteedikontrolli, säilitamise ja varundamise eest;
  • kes uuendab andmehaldusplaani;
  • milliseid ressursse on andmete jaoks vaja (nt salvestusruum, tarkvara, eriteenused, transkribeerimiskulud);
  • milliseid asutuspõhiseid (nt ülikooli-) teenuseid on võimalik kasutada.

4.3 Andmehaldusplaani tööriistad ja mallid

Uurijate töö hõlbustamiseks andmehaldusplaanide koostamisel ja haldamisel on loodud mitmesuguseid tööriistu ja malle:

DMPonline (https://dmponline.dcc.ac.uk/)

Digital Curation Centre’i (DCC) loodud DMPonline:

  • mallid Euroopa Liidu rahastusprogrammide (nt Euroopa Horisont) projektidele
  • iga sammu juures juhendid ja näited
  • töös olevaid andmehaldusplaane saab teistega jagada
  • plaanide salvestamine .pdf ja .docx formaadis

ARGOS (https://argos.openaire.eu/portal/)

ARGOS on OpenAIRE poolt loodud andmehaldusplaani tööriist:

  • aitab koostada FAIR-põhimõtetega kooskõlas olevaid andmehaldusplaane;
  • integreerub OpenAIRE teenuste ja repositooriumidega;
  • toetab struktureeritud, versioonihaldust võimaldavaid ja avatud DMP-sid.

Andmehaldusplaanide mallid

  • Horizon Europe’i andmehaldusplaani mall
  • ETAGi andmehalduse juhised ja mallid

4.4 Raamatukogu tugi

TLÜ Akadeemilise Raamatukogu teadusandmete spetsialistid pakuvad individuaalkonsultatsioone, et toetada uurijaid teadusandmete haldamisega seotud teemadel ning vastata andmehaldusplaani koostamisega seotud küsimustele. Samuti vaatavad nad üle andmehaldusplaani kavandeid ja annavad tagasisidet.

Kui sul on küsimusi andmehaldusplaanide kohta üldiselt või tarvis konkreetset andmehaldusplaani lasta üle vaadata, võta meiega ühendust.

Korralikult vormistatud andmed vähendavad vigu, säästavad aega ja teevad koostöö lihtsamaks. Selged failinimed, ühtsed kaustastruktuurid, versioonikontroll ja korralik dokumentatsioon aitavad tagada, et teadusandmed on kogu projekti vältel arusaadavad ja hiljem taaskasutatavad.

5.1 Failinimed

Selged ja järjepidevad failinimed muudavad andmete leidmise, mõistmise ja haldamise projekti jooksul lihtsamaks. Läbimõtlemata failinimed võivad põhjustada segadust, juhuslikku ülekirjutamist või olukordi, kus ei ole võimalik tuvastada faili kõige uuemat või olulisemat versiooni.

Failinimede valimisel on soovitatav järgida järgmisi põhimõtteid:

  • Kirjelda: kasuta sisukaid nimesid, mis kirjeldavad selgelt faili sisu, eesmärki või konteksti.
  • Kasuta ühtset struktuuri: lepi projekti alguses kokku failinimede loogika ja kasuta seda järjepidevalt kõigi failide puhul.
  • Lisa olulised elemendid: failinimed võivad sisaldada näiteks projekti nime või lühendit, andmetüüpi, kuupäeva (jälgi, et kuupäevavorming oleks kõigil failidel sama) ja versiooninumbrit.
  • Väldi mittestandardseid tähemärke: ära kasuta tühikuid ega erimärke, mis võivad eri operatsioonisüsteemides probleeme tekitada; tühiku asemel eelista alakriipsu (_) või sidekriipsu (-).
  • Hoia nimed lühikesed, kuid informatiivsed: liiga pikad nimed on kohmakad, liiga lühikesed aga ei pruugi anda piisavalt konteksti.

Näide:
projectA_interviewData_2025-03-12_v02.csv

5.2 Kaustade organiseerimine

Nagu failinimede puhul, aitab läbimõeldud kaustastruktuur hoida projektis selgust ja lihtsustab navigeerimist.

Soovitatavad lähenemised:

  • Kasuta hierarhilist struktuuri: korralda kaustad uurimistöö põhietappide või -osade järgi, näiteks „Data“, „Analysis“, „Documentation“, „Outputs“ või valdkonnaspetsiifilised kategooriad.

    Nõuanne: alusta laiematest põhikaustadest ja loo nende alla täpsemad alamkaustad. Väldi liiga sügavat struktuuri (üle 3–4 taseme).
  • Eralda toorandmed ja töödeldud andmed: toorandmeid tuleks alati säilitada muutmata kujul ning töödeldud või tuletatud andmed hoida eraldi ja selgelt märgistatud kaustades.

    Nõuanne: vigade ja tahtmatute muudatuste vältimiseks pane toorandmetele read-only õigused.
  • Arvesta andmemahtude suurenemisega: loo kaustastruktuur selliselt, et see jääks hallatavaks ka suuremate andmemahtude ja paljude failide korral.
  • Kasuta ühtseid nimetamisreegleid: kaustanimed peaksid järgima samu põhimõtteid failinimedega – olema selged, kirjeldavad ja ühtses vormis.

    Nõuanne: kasuta alakriipse (_) või sidekriipse (-), väldi erimärke ja tühikuid ning vali üks kuupäevavorming ja kasuta seda järjepidevalt.

Peakaustad võivad olla esitatud näiteks selliselt:

  • /raw/ – muutmata toorandmed
  • /processed/ – puhastatud või teisendatud andmed
  • /scripts/ – andmeanalüüsi või -töötluse jaoks kasutatud programmiskriptid
  • /docs/ – dokumentatsioon ja metaandmed
  • /outputs/ – graafikud, tabelid ja muud analüüsitulemused

5.3 Versioonihaldus

Andmete versioonihaldus (version control) aitab jälgida muudatusi, taastada varasemaid versioone ja vältida juhuslikku ülekirjutamist. See on eriti oluline juhtudel, kus mitu inimest teevad ühe failiga tööd ja olukordades, kus andmed muutuvad tihti.

Mõned võimalikud variandid:

  • Käsitsi: versiooninumbrite või kuupäevade lisamine failinimedesse (nt v01, v02).
  • Automaatsed tööriistad: Git, GitHub, GitLab või Bitbucket aitavad süstemaatiliselt versioone jälgida. Peamiselt kasutatakse neid programmeerimisel, kuid on rakendatavad ka paljudes teistes valdkondades.
  • Repositooriumipõhine versioonihaldus: mõned repositooriumid (nt Zenodo) säilitavad üles laaditud failide varasemad versioonid automaatselt. Need aga on mõeldud valmiskujul andmekogude puhul kasutamiseks, töös olevate andmete versioone tuleks hallata muul moel.
  • Muudatuste logi (changelog): lihtne ülevaade sellest, mida muudeti, millal ja kelle poolt.

5.4 Dokumentatsioon

Dokumentatsioon aitab teistel (ja ka endal) andmeid paremini mõista ja taaskasutada. Dokumentatsiooni eesmärk on anda ülevaade andmete tausta, sisu ja struktuuri kohta.

Olulised komponendid:

  • README fail – annab ülevaate andmete eesmärgist, struktuurist ja sisaldavad muid asjakohaseid märkusi.
  • Andmesõnastikud – kirjeldavad struktureeritud andmete muutujaid (nimi, definitsioon, ühikud, lubatud väärtused, koodid). 
  • Metoodiline dokumentatsioon – protokollid, töövood, skriptid ja märkmed, mis selgitavad, kuidas andmeid koguti, töödeldi ja analüüsiti.

Metaandmete standardid – tunnustatud metaandmete kasutamine parandab andmete leitavust ja koostalitlusvõimet (vt täpsemalt 6. peatükki).

Metaandmed aitavad teadusandmeid paremini mõista ja kasutada. Standardid tagavad, et see teave on esitatud ühtses ja kokkulepitud vormis. 

6.1 Mis on metaandmed?

Metaandmed on „andmed andmete kohta“. Need kirjeldavad, mida teadusandmed/andmekogud sisaldavad, kuidas need on loodud ja kuidas neid saab kasutada. Hästi koostatud metaandmed aitavad nii inimestel kui ka masinatel andmeid leida, mõista ja hallata.

Peamised metaandmete tüübid:

Kirjeldavad metaandmed
Kasutatakse andmete leitavuse hõlbustamiseks ja annavad neist esmase ülevaate  – pealkirjad, autorid, märksõnad, kokkuvõtted, teemad ja kuupäevad. 

Struktuursed metaandmed
Selgitavad, kuidas failid ja andmed omavahel seostuvad (nt versioonid, kaustastruktuurid, toor- vs töödeldud andmed).

Halduslikud metaandmed
Toetavad pikaajalist haldamist – õigused, litsentsid, ligipääsutingimused, päritolu ning tehnilised üksikasjad.

Tehnilised või valdkonnaspetsiifilised metaandmed
Sisaldavad konkreetse valdkonna vaates olulist teavet, näiteks mõõtevahendite sätteid, geograafilisi koordinaate või katseparameetreid.

6.2 Metaandmete standardid

Metaandmete standardid defineerivad andmeid kirjeldava info elemendid ja struktuuri ühtsel viisil. Need tagavad, et metaandmed on selged, masinloetavad ja koostalitlusvõimelised. Standardite kasutamine parandab järjepidevust (kõiki andmeid kirjeldatakse samade mõistete, definitsioonide ja vormistusreeglite abil), muudab andmekogusid kergemini leitavaks ning võimaldab nende koostalitlusvõimet erinevates süsteemides ja valdkondades.

Levinud standardite tüübid:

Üldotstarbelised standardid
Kasutatakse enamasti neil juhtudel, kus puudub valdkonnaspetsiifilisuse nõue.
Näited:

  • Dublin Core (https://www.dublincore.org/)
  • DataCite Schema (https://schema.datacite.org/)
  • MODS (https://www.loc.gov/standards/mods/)

Valdkonnaspetsiifilised standardid
Sobivad konkreetsete teadusalade andmetüüpide või uurimismeetoditega.
Näited:

  • DDI (sotsiaalteaduste küsitlusandmed, https://ddialliance.org/)
  • ISA-Tab / ISA-JSON (bioteadused, https://isa-specs.readthedocs.io/en/latest/)
  • Darwin Core (bioteadused, https://dwc.tdwg.org/)

Tehnilised ja struktuursed standardid
Määratlevad failivormingud ja tehnilised kokkulepped.
Näited:

  • CSV-, JSON- ja XML-skeemid
  • OAI-PMH
  • kontrollitud sõnastikud (nt MeSH)

Standardi valimisel arvestatakse valdkondlikku praktikat, repositooriumi nõudeid ja andmete iseloomu. Metastandardite kasutuselevõtt projekti varases etapis vähendab hilisemat lisatööd.

FAIR-põhimõtted aitavad muuta teadusandmed leitavaks (Findable), ligipääsetavaks (Accessible), koostalitlusvõimeliseks (Interoperable) ja taaskasutatavaks (Reusable). Need annavad praktilise raamistiku andmete kvaliteedi parandamiseks, pikaajalise väärtuse tagamiseks ning nii inim- kui ka masinloetavuse toetamiseks. 

FAIR lähtub põhimõttest „nii avatud kui võimalik, nii suletud kui vajalik“ – mitte kõik teadusandmed ei pea olema avalikud, kuid piirangud peavad olema selgelt põhjendatud (nt tundlike, isiku- või konfidentsiaalsete andmete puhul).

7.1 Mis on FAIR-põhimõtted?

FAIR toetab teadusandmete haldamist nelja põhimõtte kaudu:

Leitavus (Findable) – teadusandmed peavad olema leitavad. Selle eelduseks on püsivad identifikaatorid (nt DOI), piisavalt metaandmeid ja indekseerimine otsimist võimaldavates repositooriumides.

Ligipääsetavus (Accessible) – kasutajatele peab olema selge, kuidas teadusandmetele ligi pääseda ning ligipääsutingimused peavad olema selgelt kirjeldatud.

Koostalitlusvõime (Interoperable) – teadusandmed ja metaandmed peaksid kasutama levinud ja avatud vorminguid, sõnastikke ja protokolle, et neid saaks kombineerida teiste andmetega ja töödelda tarkvaravahenditega.

Taaskasutatavus (Reusable) – teadusandmetega peaksid kaasnema selged litsentsid ja piisav dokumentatsioon, et neid oleks võimalik korrektselt mõista ja kasutada.

7.2 Kuidas muuta teadusandmed FAIR-põhimõtetele vastavaks?

FAIR-põhimõtteid saab rakendada mitmete praktiliste sammude kaudu.

Leitavuse tagamiseks:

  • säilita teadusandmeid usaldusväärses repositooriumis;
  • kasuta püsivaid identifikaatoreid (nt DOI);
  • loo põhjalikud ja struktureeritud metaandmed.

Ligipääsetavuse tagamiseks:

  • kehtesta ja kirjelda ligipääsutingimusi (avatud, embargoga või piiratud/suletud ligipääsuga);
  • jäta metaandmed avalikult ligipääsetavaks ka siis, kui teadusandmetele endile on kehtestatud piirangud;

Koostalitlusvõime tagamiseks:

  • kasuta levinud ja avatud failivorminguid (nt CSV, JSON);
  • kasuta valdkonnaga sobivaid metaandmete standardeid ja kontrollitud sõnastikke;
  • väldi kommertstarkvarade failivorminguid, kui need ei ole just hädavajalikud.

Taaskasutatavuse tagamiseks:

  • lisa andmetele litsentsid (nt CC BY, CC0 või piiratud ligipääsu tingimused);
  • koosta andmetele põhjalik dokumentatsioon;
  • Kasuta andmeid, mis on puhastatud, valideeritud ja mille võimalikud puudused/piirangud on dokumentatsioonis kirjeldatud.

FAIR-põhimõtted on kõige tõhusamad siis, kui neid rakendatakse juba projekti alguses.

7.3 FAIR ja avatud andmed

FAIR ja avatud andmed on omavahel seotud, kuid ei ole identse tähendusega:

  • FAIR keskendub sellele, kuidas teadusandmed on leitavad ja taaskasutatavad, sõltumata sellest, kas ligipääs on avatud või piiratud.
  • Avatud andmed on vabalt kättesaadavad, kuid kõik avatud andmed ei ole tingimata FAIR-põhimõtetele vastavad. Halvasti dokumenteeritud avatud andmed võivad olla formaalselt „avatud“, kuid kehvemal juhul ei ole neid võimalik leida ega kasutada.
  • Teadusandmed võivad olla FAIR-põhimõtetele vastavad ka siis, kui need ei ole avatud. Sellisel juhul on metaandmed avalikud, kuid ligipääs andmetele on reguleeritud (nt tundlik info, isikuandmed).

Teadusandmete haldamisel tuleb kaitsta uuritavaid, täita õiguslikke nõudeid ning järgida eetikapõhimõtteid. Neid teemasid tuleb käsitleda terve projekti jooksul – alates andmete kogumisest ja töötlemisest kuni nende pikaajalise säilitamiseni.

8.1 Tundlikud andmed

Teadusandmete haldamise kontekstis tuleks tundlikeks andmeteks pidada järgnevat mittetäielikku loetelu ja pidada meeles, et selliste andmete kogumine, töötlemine ja säilitamine nõuab erilist ettevaatust ja õiguslike normide järgimist:

  • Isikuandmed ja isikuandmete eriliigid
  • Äriliselt tundlikud andmed 
  • Ohustatud liikide andmed
  • Igasugused muud andmed, mis avalikustamisel võivad kahju tekitada

8.2 Informeeritud nõusolek

Informeeritud nõusoleku eesmärk on uuritavatele selgitada, milliseid andmeid projektis kogutakse, kuidas neid kasutatakse ja millised õigused uuritavatel on.

Informeeritud nõusolek hõlmab:

  • selget ja arusaadavat teavet uurimuse kohta;
  • selgitusi andmete säilitamise, jagamise ja võimaliku tulevase taaskasutuse kohta;
  • võimalust nõusolek tagasi võtta ning teavet selle kohta, mida varemkogutud andmetega tehakse;
  • korrektset dokumenteerimist (kirjalikult, salvestatult või digitaalselt).

8.3 Autoriõigus, litsentsid ja intellektuaalomand

Intellektuaalomandi, autoriõiguste ja litsentside mõistmine aitab vältida õiguslikke probleeme ja toetab vastutustundlikku andmete jagamist.

Olulised teemad, mida käsitleda:

  • Omand: selgitatakse, kellele andmed kuuluvad – nt uurijale, asutusele, rahastajale, teistele füüsilistele või juriidilistele isikutele.
  • Autoriõigus: teadusandmed võivad sisaldada autoriõigusega kaitstud materjale (nt tekstid, pildid, tarkvara).
  • Litsentseerimine: andmetele tuleb lisada selged litsentsid (nt Creative Commons, Open Data Commons), et kasutajad teaksid, kuidas neid võib kasutada.
  • Kolmandate osapoolte materjalid: enne jagamist hangitakse load või eemaldatakse piirangutega sisu.

Koostöölepped: mitme osapoolega projektides tuleb varakult kokku leppida õigused ja andmete jagamise põhimõtted.

Teadusandmete jagamine ja säilitamine suurendab teadustöö nähtavust, toetab tulemuste kontrollitavust ning võimaldab andmete taaskasutust.

9.1 Miks andmeid jagada?

Teadusandmete jagamiseks on mitmeid loogilisi põhjusi:

  • Suurem mõju: jagatud andmeid saab tsiteerida, mis suurendab teadustöö nähtavust.
  • Läbipaistvus: teised uurijad saavad tulemusi kontrollida või nendele uusi töid rajada.
  • Nõuete täitmine: paljud rahastajad ja teadusajakirjad nõuavad andmete jagamist.
  • Taaskasutus: andmeid saab kasutada uutes uurimustes, õppe- ja teadustöös või muudes (k.a. interdistsiplinaarsetes) uuringutes.

Isegi juhul, kui teadusandmeid ei saa avalikult jagada (nt tundlik või piiratud sisu), tuleks metaandmed siiski avaldada, et toetada andmete leitavust.

9.2 Repositooriumi valimine

Usaldusväärne repositoorium tagab teadusandmete pikaajalise säilitamise ja stabiilse ligipääsu. Repositooriumi valimisel tuleks arvestada järgmiste punktidega:

  • Valdkondlik sobivus: erialaspetsiifilised repositooriumid pakuvad sageli kõige paremini sobivaid metaandmeid ja valdkonnastandardeid.
  • Sertifitseerimine: eelistada tuleks sertifitseeritud repositooriume (millel on nt CoreTrustSeal, Nestor Seal või ISO 16363 sertifikaat).
  • Litsentsimise ja ligipääsu võimalused: repositoorium peaks toetama asjakohaseid litsentse ning võimaldama vajadusel piirangute või embargo kehtestamist.
  • Püsivad identifikaatorid: repositoorium peaks omistama püsivaid identifikaatoreid (eelistatult DOI).

Tüübi järgi jagunevad repositooriumid valdkonnaspetsiifilisteks (nt GenBank, ICPSR), üldisteks (nt Zenodo, DataDOI, Figshare) ja asutusepõhisteks.

9.3 Andmete ettevalmistamine repositooriumisse lisamiseks

Enne teadusandmete repositooriumisse lisamist tuleb veenduda, et failid on korrastatud, dokumenteeritud ja taaskasutuseks valmis:

  • failid on organiseeritud selge kaustastruktuuri ja ühtsete failinimedega;
  • andmed on dokumenteeritud README-faili, andmesõnastike ja vajalike märkustega;
  • kasutatud on valdkonnale või repositooriumile sobivaid metaandmete standardeid;
  • tundlikud andmed on eemaldatud, anonüümiseeritud või muul viisil kaitstud;
  • kasutatud on avatud failivorminguid (nt CSV, TXT, TIFF);
  • lisatud on litsentsiteave, mis selgitab andmete kasutustingimusi.

9.4 Andmetele viitamine

Teadusandmetele viidatakse sarnaselt teistele teadustulemustele. Korrektselt vormistatud viide tunnustab andmete loojat/autorit ning aitab andmeid taaskasutada.

Andmekogu viide sisaldab tavaliselt järgmisi elemente:
autor(id), aasta, pealkiri, repositoorium, versioon, püsiv identifikaator (DOI).

Näide (APA 7):
O’Donohue, W. (2017). Content analysis of undergraduate psychology textbooks (ICPSR 36966; Version V1) [Andmekogu]. ICPSR. https://doi.org/10.3886/ICPSR36966.v1

Siia on toodud valik andmehaldusega seotud täiendmaterjalidest (õppematerjalid, mallid (templates), README näited, failide nimetamise juhendid jms).

10.1 Soovitatud õppematerjalid

Alljärgnevad juhendid ja õppematerjalid on sissejuhatuseks teadusandmete haldamise põhiteemadesse, sealhulgas metaandmed, FAIR-põhimõtted, dokumentatsioon, autoriõiguse ja intellektuaalomandiga seotud teemad ja andmete jagamine.

Digital Curation Centre (DCC) – RDM Training Materials
https://www.dcc.ac.uk/guidance/training

Põhjalikud juhendid, checklistid ja koolitusmooduleid andmehaldusplaanide koostamise, andmete haldamise ja repositooriumite kohta.

OpenAIRE – Open Science and FAIR Training
https://www.openaire.eu/support/training-material

Veebiseminarid, esitlusslaidid ja lühikursused FAIR-andmete, avatud teaduse ja repositooriumide kasutamise kohta.

FOSTER Open Science – Training Portal
https://www.fosteropenscience.eu/learning

Iseseisvaks õppimiseks mõeldud kursused FAIR-andmete, avatud teaduse, taaskasutuse ja andmehalduse teemadel.

UK Data Service – Data Skills Training
https://ukdataservice.ac.uk/learning-hub

Õppematerjalid andmehalduse, anonümiseerimise, metaandmete ja tundlike andmete haldamise kohta, fookus sotsiaalteadustel.

Library Carpentry – Lessons for Data Skills
https://librarycarpentry.org/lessons

Õppematerjalid andmete korrastamise, puhastamise, versioonihalduse ning tööriistade (nt SQL, OpenRefine, Git) kasutamise kohta.

Research Data Netherlands – Practical Guides
https://www.researchdata.nl/en/services/training-and-education

Õppematerjalid andmete arhiveerimise, FAIR-teemade ja repositooriumide kohta.

10.2 Mallid

Mallid annavad täitmiseks ette struktureeritud ja muudetavad vormid, mis on loodud levinumate rahastusprogrammide nõuete jm väljakujunenud tavade alusel. 

Andmehaldusplaanide mallid

README-failid

Metaandmed

Andmesõnastike mallid

Failinimede ja kaustastruktuuride juhendid