Przygotowanie danych do udostępniania

Pisząc o udostępnianiu danych badawczych, zazwyczaj przywołuje się maksymę, iż dane powinny być „tak otwarte, jak to możliwe – tak zamknięte, jak to konieczne” (ang. as open as possible, as closed as necessary), ponieważ niektóre typy danych nie mogą być udostępniane w otwartym dostępie.

Po zakończonym etapie pozyskania danych – zgodnym z zaplanowanym procesem badawczym oraz przyjętą metodologią – należy podjąć decyzję, czy dane zostaną udostępnione czy też nie. Dane powinny być otwarte co najmniej w zakresie wymaganym do weryfikacji wyników badań zaprezentowanych w określonej publikacji naukowej. W wyjątkowych przypadkach (np. w przypadku danych, które z różnych powodów nie mogą być otwarte), dane powinny być udostępniane osobom zainteresowanym bezpośrednio przez autora, przy czym sposób dostępu do tego typu danych powinien zostać określony w sposób jawny.

Dane badawcze najczęściej udostępniane są w postaci tzw. datasetów, czyli zbiorów stanowiących pewną odrębną całość i zawierających dane powiązane z jedną publikacją, projektem naukowym, bądź eksperymentem. Ponadto, zgodnie z zasadami FAIR, zbiory danych badawczych powinny zostać opisane przy pomocy metadanych, które są gwarantem prawidłowego ich zindeksowania, a co za tym idzie ich wyszukiwania oraz ponownego użycia.

Metadane, czyli dane o danych, mają na celu usystematyzowanie sposobu opisu danych – posiadając stałą, ustandaryzowaną strukturę opisu (np. nazwa zbioru, autor, język, DOI, rok, wersja, format, licencja itd.) są zawsze zrozumiałe dla ludzi i programów komputerowych. Istnieją ogólne, uniwersalne standardy metadanych (np. Dublin Core, Data Cite, Data Documentation Initiative) oraz standardy dziedzinowe.

Przygotowując dane do udostępnienia, warto przed ich udostępnieniem dokonać:

  • selekcji danych; unikać udostępniania zbiorów danych podobnych do już istniejących; udostępniać dane o dużej wartości naukowej; uwzględnić wymagania agencji finansujących badania (czy archiwizacja jest konieczna) oraz aspekt ekonomiczny (czy uzasadnione są koszty przechowywania danych),
  • usunięcia danych wrażliwych poprzez zastosowanie anonimizacji lub pseudonimizacji;
    • anonimizacja – trwałe usunięcie powiązań między danymi osobowymi a osobą, której dotyczą; anonimizacja jest procesem trwałym i nieodwracalnym,
    • pseudonimizacja – przetworzenie danych osobowych w taki sposób, by nie można ich było przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji; pseudonimizacja jest procesem odwracalnym,
  • wyboru formatów plików; dane powinny zostać opublikowane w formacie ogólnodostępnym, wykorzystującym standardowe kodowanie, bez koniczności zakupu oprogramowania komercyjnego; ponadto formaty plików powinny być zgodnie z formatami obowiązującymi w określonej dyscyplinie naukowej,
  • nazewnictwa plików; opisowa nazwa pliku powinna odzwierciedlać jego zawartość,
  • wersjonowania, czyli kontroli zmian w pliku; każda zmiana w pliku powinna zostać zapisana  z uwzględnieniem momentu wprowadzenia zmian, użytkownika wprowadzającego zmiany oraz użytkownika zatwierdzającego te zmiany; każda wersja dokumentu (od wersji pierwotnej, poprzez wszelkie wersje pośrednie, aż do wersji aktualnej) powinna być przechowywana w bazie,
  • opatrzenia datasetów opisem w postaci metadanych; odpowiednio zastosowane metadane pozwalają na zindeksowanie, wyszukiwanie oraz ponowne wykorzystanie danych badawczych.

Przydatne adresy:

Loading...
Skip to content