Zarządzanie danymi...

Post on 20-Jul-2020

8 views 0 download

Transcript of Zarządzanie danymi...

Tomasz Psonka, Elsevier

Zarządzanie danymi badawczymi

• 05 czerwca 2017,

• IV Ogólnopolskie Seminarium użytkowników

Uczelnianych Baz Wiedzy – Politechnika Warszawska

• Dlaczego dane badawcze?

• Wpływ wymiany danych badawczych

• Kiedy mamy do czynienia z danymi badawczymi?

• Jak wygląda praktyka z danymi badawczymi?

• Elementy efektywnego korzystania z danych badawczych

• Narzędzia i programy wspierające korzystanie z danych

badawczych

Program łączący dane

Standardy przemysłowe

Wyszukiwanie informacji

Notatniki badawcze (HiveBench)

Repozytorium Danych (Mendeley Data)

Data journals – czasopisma publikujące zestawy danych

• Polityka danych badawczych

Zarządzanie danymi badawczymi

Dlaczego dane badawcze?

3

Wyciąg z “Dziesięciu najważniejszych korzyści z udostępniania danych w

astronomii ”, ze Sloan Digital Sky Survey:

• Wczesne udostępnianie danych znacznie poprawia „finalny produkt”, np.

więcej osób „patrząc” na dane zwiększa szansę znalezienia subtelnych

problemów, co jest szczególnie istotne dla misji kosmicznych z określonym czasem

„życia”, np. Misja Gaja - Europejskiej Agencji Kosmicznej

• Więcej nauki jest ekstrahowane z tego samego zestawu danych, np

Różnorodność pomysłów: wiele z najbardziej widocznych rezultatów SDSS było

niespodziewane w pierwotnej propozycji projektu

Wpływ wymiany danych: astronomia

4

http://www.astro.washington.edu/users/ivezic/Outreach/Talks/NAS2011_Ivezic.pdf

Željko Ivezić, Department of Astronomy, University of Washington - The Sloan Digital Sky Survey Telescope - Apache Point Observatory, NM

With contributions from: Andy Connolly, Bob Hanisch, David Hogg, Mario Jurić, Andy Lawrence,

Robert Lupton, Mathias Steinmetz, Michael Strauss, Alex Szalay, Tony Tyson, Roy Williams

• Czasami jedynym sposobem zabezpieczenia

ograniczonych zasobów są „najprostsze

rozwiązania” tzw. „droga naprzód” wymaga

bardziej istotnego łączenia zasobów

badawczych: HST Deep Field, UKIDSS, LSST

• Rezultatem była większa ilości cytowań czyli

wpływ i prestiż dla Zespołu, który opracował

dane, praktycznie wszyscy doktoranci z

pierwszego etapu SDSS utrzymali swoje

stanowiska wykładowców do dziś

„Kapitał w XXI wieku” jest książką opublikowaną w 2013 przez

francuskiego ekonomistę Thomasa Piketty.

• Koncentruje się ona na bogactwie i nierówności dochodów w Europie

i Stanach Zjednoczonych od XVIII wieku

• Centralna teza jest taka, że kiedy stopa zwrotu z kapitału (r) jest

większa niż tempo wzrostu gospodarczego (g) i to przez długi czas, to

wynikiem jest koncentracja bogactwa, a nierówny podział bogactwa

powoduje niestabilność społeczną i ekonomiczną

• Wszystkie surowe dane, znormalizowane dane, wszystkie analizy i

metody zostały udostępnione publicznie na dedykowanej stronie

internetowej

Wpływ wymiany danych: nauki społeczne

5

“Oto ogromne ilości informacji wyciągnięte z ewidencji podatkowych od spadków, zapisów, a także

różnych innych dostępnych źródłach danych, określone w wykresach, które powinny być łatwo

dostępne dla wszystkich czytelników. Nie wszystkie informacje zawarte w tych sekcjach są nowe lub

zaskakujące. Mimo tego pozycja ta jest uznana jako cenna, ponieważ jest to wszystko w jednym

miejscu, nawet większość zaciekłych krytyków tej książki szanuje to osiągnięcie.”

Pokazuje również że udostępnianie danych może prowadzić do problemów:

• Chris Giles, redaktor Financial Times (FT), twierdzi że zidentyfikowano "niewyjaśnione" błędy w

danych Piketty, w szczególności w odniesieniu do wzrostu nierówności bogactwa od 1970 roku.

"Zawierają szereg błędów, które wypaczają jego odkrycia”

• Jako następstwo, Piketty napisał odpowiedź w obronie swoich odkryć, samo oskarżenie i odpowiedzi

odbiły się szerokim echem w prasie

• Np. Scott Winship, socjolog z MIPR, twierdzi, że zarzuty nie są "istotne dla zasadniczej kwestii, czy

teza Piketty jest słuszna czy nie"

Kiedy mówimy o danych badawczych?

Procedury i/lub ustawienia urządzeń

Surowe dane Przetworzone dane

Skrypty i analizy

Protokoły, metody, algorytmy

Note: images for illustrative purpose only 6

Najczęściej postępowanie wygląda tak:

Praca z przeciwciałami,

i małymi fragmentami

informacji,

studenci prowadzą badania

i tworzą notatki,

Kierownik zespołu stara

się to zrozumieć,

i złożyć w całość.

Koniec historii.

7

Najczęstsza praktyka: przechowywanie danych jest nadal bardzo rozdrobnione

Researcher survey, 1202 respondents

(PARSE.insight 2010)

3 8

„Forschende und ihre Daten. Ergebnisse einer österreichweiten Befragung (eBook)“

E-infrastructures Austria

Bauer, B. (Bruno) et all

Oct 2015

https://phaidra.univie.ac.at/detail_object/o:407736

Zostają w instytucji

Zabieram je ze sobą

Nie wiem

Dane są stracone

Inne

Kiedy opuszczasz instytucję, co się dzieje z Twoimi danymi?

Czy Twoje dane badawcze są użyteczne dla innych?

Często

Tak

Nie

„Forschende und ihre Daten. Ergebnisse einer österreichweiten Befragung (eBook)“

E-infrastructures Austria

Bauer, B. (Bruno) et all

Oct 2015

https://phaidra.univie.ac.at/detail_object/o:407736

10 elementów dla efektywnych danych badawczych 10.

Inte

gra

cja

w o

bie

str

on

y –

stw

orz

yć t

ak

meta

dane a

by s

łużyły

do r

e-w

ykorz

ysta

nia

.

Zapisy-

wanie

Udostęp-

nianie

Używanie

9. Do ponownego użycia

8. Odtwarzalne

7. Zaufane(np. recenzja)

6. Zrozumiałe (opis/metoda jest dostępna)

5. Cytowalne

4. „Znajdywalne”(dane są indeks. lub powiązane z artykułem)

3. Dostępne

2. Zachowane (długoterminowo i niezależnie od formatu)

1. Przechowywane(istniejące w jakiejś formie)

11

Narzędzia i programy

wspierające zarządzanie danymi

badawczymi

Łączenie przez „nadane”

numery identyfikacyjne

zestawów danych w artykule

Banery z bazy danych pokazane

obok artykułu na ScienceDirect

Więcej: http://www.elsevier.com/databaselinking

• Elsevier ma bogaty program z ponad 60 czołowymi repozytoriami danych,

który ma na celu połączenia artykułów i danych

• Ułatwia to znalezienie odpowiednich danych i umieszczenia ich w

odpowiednim kontekście

• Łączenie poprzez dostępne w artykule: liczby, dane DOI albo banery

danych

Program łączenia danych

• Supplementary data at PANGAEA

• Bidirectional links between PANGAEA &

ScienceDirect

• Data visualized next to the article

Program łączenia danych – przykład Pangea

Dane badawcze z grup roboczych zajmujących się badaniami i rozwojem

standardów branżowych - przykład: www.Scholix.org

• ICSU/WDS/RDA Grupa robocza

dla usług publikowania danych

• Tworzenie modelu łączenia

danych dla ekspozycji DOI do

linków DOI, które łączy się poza

firewallem wydawcy

• Połączone z programem

pilotażowym Narodowe Usługi

Danych o tym samym celu

• Współpraca pomiędzy: CrossRef,

DataCite, Europe PubMed

Central, ANDS, Thomson

Reuters, Elsevier, OpenAire

CEL: odejście od

mnóstwo (w

większości)

porozumień

dwustronnych między

poszczególnymi

graczami…

.. jednej usługi

łączenia/odsyłania

dla wszystkich

artykułów i danych

.. do ..

Model wyszukiwania danych

• Wiele przykładów wyszukiwarek danych już dostępnych

• Niektóre wspólne tematy:

wyszukiwanie metadanych (np. ranking na podstawie metadanych)

i/lub multi wyszukiwarka

i/lub skoncentrowane na przypisywaniu wpływu (cytowań) niż na prostym wyszukiwani informacji

• Nietypowe (z powodu różnego poziomu trudności):

Głębokie indeksowanie zbiorów danych(wyodrębnianie spostrzerzeń na podstawie danych)

Wyszukiwarka naprawdę koncentruje się na odkrywaniu danych

BASE BioCaddie/ DataMED

Datacite Datahub.io DataONE EbiSearch OneRepo

Quandl RE3Data.org Semantic Scholar

OSF|SHARE TR Data

Citation Index Zanran

Elsevier Data Search

np. wyszukaj “Temperatura pomiaru lepkości cieczy jonowych”

DataSearch.Elsevier.com

1. Poprzez repozytoria

2. (Głębokie) indeksowanie danych, więc nie

tylko metadane

3. Podgląd danych

1

3

2

Notatki badawcze - przechwytywanie i udostępnianie

www.hivebench.com

http://data.mendeley.com/ Zarządzaj, przechowuj: Mendeley Dane Otwarte repozytorium do umieszczania i ponownego wykorzystania

danych badawczych

https://data.mendeley.com/datasets/xz6gv65m6d/6

Połączony z

opublikowanymi

pracami – lub nie

połączony z Github –

lub nie

„wersjonowanie” i

pochodzenie

Zarządzaj, przechowuj: Mendeley Dane

https://data.mendeley.com/

http://www.journals.elsevier.com/softwarex/

Data journals: SoftwareX

10

. In

tegra

cja

w o

bie

str

ony –

stw

orz

yć t

ak

meta

da

ne a

by s

łużyły

do r

e-w

ykorz

ysta

nia

.

9. Do ponownego użycia

8. Odtwarzalne

7. Zaufane

6. Zrozumiałe

5. Cytowalne

4. „Znajdywalne”

3. Dostępne

2. Zachowane

1. Przechowywane

22

10 elementów dla efektywnych danych badawczych

Protokoły

badawcze

(Hivebench)

Mendeley

dane

repozytorium

Data

journals Łączenie

danych Wyszukiwanie

danych

Inicjatywy Elsevier

Polityka danych badawczych

Elsevier będzie:

• Zachęcał i wspierał naukowców oraz instytucje naukowe do udostępniania

danych w stosownych przypadkach i w możliwie najkrótszym czasie.

• Dostarczał wytyczne dla autorów dotyczące przechowywania i udostępniania

danych.

• Zachęcał i umożliwiał dwukierunkowe powiązanie odpowiednich zbiorów

danych i publikacji z wykorzystaniem standardowych stałych identyfikatorów.

• Promowanie i wspieranie właściwych praktyk cytowań danych, dzięki czemu

naukowcy mogą być cytowani i uznawani za swoją pracę.

• Ściśle współpracował ze środowiskiem naukowym w celu ustalenia praktyk

oceny danych w celu zapewnienia, że publikowane dane badawcze są ważne,

odpowiednio udokumentowane i mogą być ponownie wykorzystane.

• Opracowywał narzędzia i usługi wspierające naukowców do znajdowania oraz

wielokrotnego użycia danych do ich dalszych badań.

“Surowe dane badawcze powinny być ogólnie dostępne dla wszystkich naukowców

w miarę możliwości” – STM Brussels Declaration 2007

Korzyści z usług Scopus i / lub ScienceDirect API dla repozytoriów instytucjonalnych

24 www.elsevier.com/solutions/sciencedirect/support/institutional-repository

Dziękuję bardzo! Pytania?

+48 501 980 333

t.psonka@elsevier.com