Pisząc o udostępnianiu danych badawczych, zazwyczaj przywołuje się maksymę, iż dane powinny być „tak otwarte, jak to możliwe – tak zamknięte, jak to konieczne” (ang. as open as possible, as closed as necessary), ponieważ niektóre typy danych nie mogą być udostępniane w otwartym dostępie.
Po zakończonym etapie pozyskania danych – zgodnym z zaplanowanym procesem badawczym oraz przyjętą metodologią – należy podjąć decyzję, czy dane zostaną udostępnione czy też nie. Dane powinny być otwarte co najmniej w zakresie wymaganym do weryfikacji wyników badań zaprezentowanych w określonej publikacji naukowej. W wyjątkowych przypadkach (np. w przypadku danych, które z różnych powodów nie mogą być otwarte), dane powinny być udostępniane osobom zainteresowanym bezpośrednio przez autora, przy czym sposób dostępu do tego typu danych powinien zostać określony w sposób jawny.
Dane badawcze najczęściej udostępniane są w postaci tzw. datasetów, czyli zbiorów stanowiących pewną odrębną całość i zawierających dane powiązane z jedną publikacją, projektem naukowym, bądź eksperymentem. Ponadto, zgodnie z zasadami FAIR, zbiory danych badawczych powinny zostać opisane przy pomocy metadanych, które są gwarantem prawidłowego ich zindeksowania, a co za tym idzie ich wyszukiwania oraz ponownego użycia.
Metadane, czyli dane o danych, mają na celu usystematyzowanie sposobu opisu danych – posiadając stałą, ustandaryzowaną strukturę opisu (np. nazwa zbioru, autor, język, DOI, rok, wersja, format, licencja itd.) są zawsze zrozumiałe dla ludzi i programów komputerowych. Istnieją ogólne, uniwersalne standardy metadanych (np. Dublin Core, Data Cite, Data Documentation Initiative) oraz standardy dziedzinowe.
Przygotowując dane do udostępnienia, warto przed ich udostępnieniem dokonać:
- selekcji danych; unikać udostępniania zbiorów danych podobnych do już istniejących; udostępniać dane o dużej wartości naukowej; uwzględnić wymagania agencji finansujących badania (czy archiwizacja jest konieczna) oraz aspekt ekonomiczny (czy uzasadnione są koszty przechowywania danych),
- usunięcia danych wrażliwych poprzez zastosowanie anonimizacji lub pseudonimizacji;
- anonimizacja – trwałe usunięcie powiązań między danymi osobowymi a osobą, której dotyczą; anonimizacja jest procesem trwałym i nieodwracalnym,
- pseudonimizacja – przetworzenie danych osobowych w taki sposób, by nie można ich było przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji; pseudonimizacja jest procesem odwracalnym,
- wyboru formatów plików; dane powinny zostać opublikowane w formacie ogólnodostępnym, wykorzystującym standardowe kodowanie, bez koniczności zakupu oprogramowania komercyjnego; ponadto formaty plików powinny być zgodnie z formatami obowiązującymi w określonej dyscyplinie naukowej,
- nazewnictwa plików; opisowa nazwa pliku powinna odzwierciedlać jego zawartość,
- wersjonowania, czyli kontroli zmian w pliku; każda zmiana w pliku powinna zostać zapisana z uwzględnieniem momentu wprowadzenia zmian, użytkownika wprowadzającego zmiany oraz użytkownika zatwierdzającego te zmiany; każda wersja dokumentu (od wersji pierwotnej, poprzez wszelkie wersje pośrednie, aż do wersji aktualnej) powinna być przechowywana w bazie,
- opatrzenia datasetów opisem w postaci metadanych; odpowiednio zastosowane metadane pozwalają na zindeksowanie, wyszukiwanie oraz ponowne wykorzystanie danych badawczych.
Przydatne adresy:
- Selekcja i przygotowanie danych badawczych do udostępnienia. Oprac. Wojciech Fenrich
- Udostępnianie danych badawczych – zagadnienia prawne. Oprac. Nikodem Rycko
- Zarządzanie danymi badawczymi. Oprac. Natalia Gruenpeter
- OpenRefine – narzędzie do porządkowania danych badawczych
- Narzędzie do anonimizacji danych