ISSN 2545-3459

Otwarte zasoby językowe w praktyce badawczej. Rozmowa z dr. Marcinem Oleksym (Clarin-pl)

Otwarte zasoby językowe – wiedza, która łączy naukę i kreatywność

Na kanale ohistorie.eu mgr Maciej Żyśko rozmawia z dr. Marcinem Oleksym z Politechniki Wrocławskiej – badaczem, współtwórcą zasobów językowych w ramach konsorcjum CLARIN-PL i… gitarzystą rockowego zespołu o niebanalnej nazwie 40 synów i 30 wnuków jeżdżących na 70 oślętach. Tematem jest rosnące znaczenie otwartych zasobów językowych w nauce i ich praktyczne wykorzystanie.

Dr Oleksy wyjaśnia, że takie zasoby to zbiory tekstów, słowników, korpusów, baz danych, które są udostępniane publicznie i bezpłatnie – w takim stopniu, w jakim pozwalają na to przepisy prawa i ochrona danych osobowych. Kluczowe są tu zasady FAIR: dane mają być odnajdywalne, dostępne, interoperacyjne i nadające się do ponownego użycia.

W rozmowie pojawiają się przykłady ograniczeń w dostępie – od praw autorskich (np. współczesna literatura bez licencji otwartej) po dane wrażliwe (np. wywiady medyczne). Rozwiązaniem może być anonimizacja czy udostępnianie tylko dodatkowych warstw opracowania, a nie samych źródeł.

Zasoby te znajdują zastosowanie w różnych dziedzinach: od językoznawstwa i literaturoznawstwa po historię, socjologię, a nawet badania przestrzenne. Ten sam dokument może być cennym źródłem dla historyka, językoznawcy i socjologa – granice między dyscyplinami coraz bardziej się zacierają.

Dr Oleksy podkreśla dobre praktyki przy tworzeniu zasobów: dbałość o spójny format danych (np. TEI), gromadzenie szczegółowych metadanych od początku pracy, stosowanie standardów opisów oraz umieszczanie zasobów w repozytoriach zapewniających szeroką widoczność.

A dlaczego warto udostępniać swoje dane? Korzyści jest wiele: większa cytowalność, szanse na nowe współprace, spełnianie wymogów grantowych, a przede wszystkim – realny wkład w rozwój wspólnego dobra, jakim jest nauka. Potencjalne minusy (np. ryzyko nadużyć) stają się coraz rzadsze dzięki rosnącej transparentności badań.

Rozmowa kończy się przesłaniem: twórzmy i udostępniajmy otwarte zasoby językowe – to inwestycja w rozwój nauki, kreatywności i współpracy ponad granicami dyscyplin.


 

Otwarte zasoby językowe w praktyce badawczej. Rozmowa z dr. Marcinem Oleksym (Clarin-pl) 

(Rozmowa w wersji tekstowej)

Maciej Żyśko: Dzień dobry państwu. Witam na kanale ohistorie.eu. Nazywam się Maciej Żyśko, a moim gościem będzie dzisiaj dr Marcin Oleksy z Katedry Sztucznej Inteligencji na Wydziale Informatyki i Telekomunikacji Politechniki Wrocławskiej. Dzień dobry, panie doktorze.

Marcin Oleksy: Dzień dobry! Dzień dobry, panie Macieju, dzień dobry państwu.

MŻ: Przedstawię najpierw krótko naszego gościa, jeśli pan pozwoli. W życiu naukowym pan doktor jest pracownikiem wrocławskiej jednostki konsorcjum CLARIN-PL, gdzie między innymi współtworzy liczne zasoby językowe, takie jak na przykład Korpus Politechniki Wrocławskiej. A w czasie wolnym jest gitarzystą i wokalistą w kapeli rockowej o cudownej wprost nazwie „40 synów i 30 wnuków jeżdżących na 70 oślętach”. Bardzo dziękuję za przyjęcie zaproszenia, panie doktorze.

MO: Również dziękuję. Bardzo się cieszę, że możemy się spotkać i porozmawiać na te ciekawe, myślę, tematy.

MŻ: Na pewno będą ciekawe, bo nasza dzisiejsza rozmowa będzie dotyczyć otwartych zasobów językowych, takich jak między innymi właśnie KPWr, który na pewno się dzisiaj jeszcze pojawi w toku tej rozmowy, więc na razie nie spoilerujemy.

Zacznijmy w takim razie od początku, czyli od zdefiniowania czym właściwie są otwarte zasoby językowe. Co zatem należy rozumieć pod tą nazwą? Jakie rodzaje treści i materiałów mieszczą się w tej kategorii? No i jakie kryteria dany zasób musi spełniać, aby można było go uznać za otwarty?

MO: Tak, ta nazwa ma takie trzy człony i właściwie każdemu z nich można by poświęcić czas, żeby stworzyć pełną definicję. Takiej definicji, wydaje mi się, nie znajdziemy w obiegu naukowym. Ten termin się może jakoś mocno nie ustabilizował. Te trzy człony to „otwarte”, „zasoby” i „językowe”.

Zacznę od zasobów. Co pod tym pojęciem rozumieć? Ponieważ jesteśmy tutaj, mówimy przede wszystkim o naukowych działaniach i rzeczywiście to mogą być zasoby, które powstają w wyniku jakichś działań badawczych, które służą przeprowadzeniu badań, są wynikiem przeprowadzanych badań. Zasób już może się kojarzyć nam z pewnym tworem, który powstał w wyniku działalności naukowej badaczki czy badacza.

Można też na zasób popatrzeć troszeczkę inaczej, odnosząc się trochę do zasobów naturalnych. Właściwie jak popatrzymy chociażby w Internet, to tam jest sporo zasobów naturalnych, czyli tego co zostało wyprodukowane najczęściej przez człowieka. Faktem jest, że pojawia się również coraz więcej treści generowanych sztucznie, niemniej wydaje mi się, że ciągle jeszcze większość tych treści to te tworzone przez człowieka. Nie są wynikiem działalności naukowej, ale to są różnego rodzaju teksty, które znalazły się w przestrzeni mniej lub bardziej publicznej.

No i właśnie skoro pojawiło się słowo „teksty”, to pojawia się też ten drugi człon, czyli „zasoby językowe”. Więc to na pewno będzie coś, co odnosi się stricte do tej sfery działalności człowieka, czyli do języka.

No i w końcu ten element otwartości, chyba najtrudniejszy człon w definiowaniu tego pojęcia, bo co to znaczy otwarte? Punktem wyjścia na pewno byłoby to, że to powinien być zasób, który został udostępniony w taki sposób, że nie są wymagane żadne opłaty za dostęp do niego i który został jak najszerzej opublikowany. W pełni otwartym zasobem jest taki, do którego może dotrzeć każdy, bez żadnych opłat i bez żadnych ograniczeń, które nie są konieczne.

Wiemy, że w działalności naukowej nie jest to takie proste, żeby wszystko, nad czym pracujemy, udostępniać. Są różnego rodzaju przepisy, chociażby odnoszące się do prawa autorskiego, do danych osobowych, które również mogą znaleźć się w tekstach, które analizujemy. Więc właściwie może się okazać, że pracujemy w takim projekcie, realizujemy takie działanie badawcze, które może uniemożliwiać pełne otwarcie. Dlatego mówi się w kontekście otwartych zasobów o tym, że powinny być tak otwarte, jak to możliwe i na tyle zamknięte, na ile jest to konieczne. I myślę, że to jest taki złoty środek. Czyli chodzi o to, żebyśmy nie przesadzali ani w jedną, ani w drugą stronę.

Jeszcze tak mówiąc o tej definicji, to ten termin na pewno się pojawił w jednym z naszych konkursów; myślę tutaj o CLARIN-ie. Był to właśnie konkurs na otwarty zasób językowy. Przy sformułowaniu dotyczącym tego, czego oczekujemy, co ma być tym otwartym zasobem językowym, napisaliśmy –tutaj tak nawet zacytuję – to jest zasób, który spełnia standardy FAIR i który wpisuje się w model otwartej nauki, a rodzajem tego zasobu językowego może być korpus, tekst, słownik, tezaurus, wordnet, ontologia, opis gramatyki, zestaw jakichś reguł, baza danych, dane treningowe i cała masa różnego rodzaju danych, które krążą wokół języka, opisu języka i również wytworów tego języka.

MŻ: Można by się jeszcze zastanowić nad jedną kwestią – właśnie tego dostępu. W jakich sytuacjach dostęp do zasobów językowych może być ograniczony? Poruszmy tę kwestię głównie dlatego, żeby może nakierować potencjalnych badaczy, którzy tego słuchają na potencjalne problemy, które mogą się przytrafić w ich projektach.

MO: Tak, tutaj może to wynikać chociażby z przepisów dotyczących prawa autorskiego. Jako naukowcy mamy dostęp do wszelkich tekstów, które powstały. Można je badać bez ograniczeń, takie prawo dają nam przepisy. Ale już trochę inaczej jest z udostępnianiem przedmiotu tych badań. Jeśli badam literaturę współczesną – a, jak wiadomo, nie są to utwory, które już przeszły do domeny publicznej; to następuje po 70 latach od śmierci autora – i jeśli te teksty nie zostały opublikowane na licencjach takich jak któraś z licencji Creative Commons, to prezentując wyniki badań, nie mogę udostępnić powieści, które badam. To będzie złamanie praw i autora tych powieści, i wydawnictwa. To może być jedna z takich sytuacji.

Druga może dotyczyć danych osobowych. To jest również ważna kwestia. Nie możemy udostępnić danych, które umożliwią identyfikację określonych osób, a czasem przedmiotem badań są teksty czy wypowiedzi osób, które tam na taką identyfikację pozwolą, które dotykają pewnych osobistych spraw. To mogą być różnego rodzaju wywiady, na przykład wywiady medyczne, czy innego typu wywiady, które dotykają takich osobistych tematów. Więc to byłyby przykłady głównych obszarów, które sprawiają, że „otwieranie” danych, czyli [udostępnianie] tego, co powstało w wyniku naszego badania, jest niemożliwe w taki w pełni otwarty sposób.

Ale możemy się posiłkować różnymi metodami, które mimo wszystko umożliwią nam w jakiś sposób zaprezentowanie tych danych. To może być anonimizacja w przypadku danych, które zawierają dane osobowe. Również jako CLARIN wytworzyliśmy narzędzia, które umożliwiają taką automatyczną anonimizację, więc są narzędzia, które pozwalają również ten proces jakoś wspomóc. Może to być też takie podejście, że – przykładowo – jeśli w wyniku naszych prac powstały np. jakieś anotacje, teksty były przez nas znakowane, wprowadzane były jakieś dodatkowe informacje, to już jest to inna warstwa, do której my mamy prawo jako jej twórcy. Tę warstwę najczęściej możemy udostępnić, nie publikując zawartości samych utworów. Tak więc to każdorazowo wymaga analizy sytuacji prawnej tego, na jakiej licencji został opublikowany ten źródłowy utwór, co on zawiera i w jaki sposób możemy udostępnić coś, co zawiera właśnie te dane źródłowe.

Osobną kwestią są te dane, które sami wytwarzamy i tutaj jesteśmy z różnych stron zachęcani do tego, żeby te dane otwierać. To nawet czasem są wymagania projektowe, by udostępnić wyniki badań tak, żeby to było FAIR, żeby każdy mógł te dane odnaleźć, zobaczyć co tam jest, na co idą środki publiczne, na jakie badania, jakie są wyniki tych badań, bo mogą to być badania interesujące nie tylko dla samych naukowców, ale po prostu dla szerokiej grupy osób.

Więc są sytuacje, w których rzeczywiście może być problem [z udostępnieniem]. Częściowo można sobie poradzić, stosując chociażby te metody, o których mówiłem, ale czasem rzeczywiście będziemy musieli jakieś embargo zastosować, ograniczyć dostęp do danych.

Co do samego dostępu do danych, nie wiem czy to traktować jako ograniczenie, ale czasem też zdarza się to, że na przykład żeby do pewnych danych się dostać, musimy wypełnić jakiś formularz. To często związane jest z tym, że są instytucje, które również muszą rejestrować ponowne wykorzystanie tych danych. Przypominając zasady FAIR, chodzi tutaj o to, że dane badawcze powinny być możliwe do odnalezienia, to pierwsza rzecz. Czyli jeśli sobie wrzucimy coś na Google’a i  utworzymy link publiczny, to jeszcze nie jest spełnienie tego kryterium, bo właściwie kto to odnajdzie i na jakiej zasadzie. Więc tutaj dobrą praktyką jest zamieszczanie danych w takich repozytoriach, które dają możliwość dotarcia do nich szerokiej grupie osób.

Idąc dalej powinien być łatwy dostęp, otwarty dostęp [– drugi element]. Dane powinny być – mamy tu ten trzeci człon – interoperacyjne. Inni badawcze powinni móc wykorzystać te dane w łatwy sposób. Wiąże się to z np. formatami, które powinniśmy stosować.

Jest jeszcze rzecz związana z tym, że zależy nam na tym, żeby wyniki naszej pracy funkcjonujące w przestrzeni publicznej były w jakiś sposób cytowane, żeby we właściwy sposób odnosili się do nich inni, którzy z nich korzystają. Stąd może brać się również nie tyle wymóg co taka zachęta do rejestrowania użycia pewnych zasobów. Nie wiem czy to nazywać ograniczeniem. To jest raczej coś, co pozwala rejestrować pewne rzeczy. Może jest pewną trudnością, bo wiąże się z wypełnieniem paru pól, być może więc jakimś ograniczeniem jest.

MŻ: Dziękuję bardzo. Myślę, że teraz już wiemy czym dokładnie są otwarte zasoby językowe i mamy już taki ogólny obraz, więc fajnie byłoby chyba przejść do praktyki badawczej, do konkretnych zastosowań, które my, badacze, możemy podjąć, używając tego rodzaju zasobów.

I tutaj pierwsze pytanie: w jaki sposób badacz może wykorzystać otwarte zasoby językowe w sensie bardziej prawnym, gdzie na przykład kończy się dozwolony użytek?

MO: Tutaj mamy kilka kwestii, bo jest z jednej strony ten dozwolony użytek, to na co zezwala nam chociażby prawo autorskie. No i jest jeszcze rzecz kolejna, czyli licencja, na jakiej został udostępniony utwór. No i oczywiście dochodzi jeszcze trzecia rzecz – kwestie etyczne, bo często zdarza się tak, że może prawo nas do pewnych rzeczy nie obliguje, ale z punktu widzenia etyki dobrze by było pewnych rzeczy przestrzegać.

Zaczynając od tego dozwolonego użytku i tego, do czego mamy prawo z tytułu chociażby prawa autorskiego, to rzeczywiście – jak wspomniałem na początku – jako badacze właściwie możemy korzystać z jakichkolwiek tekstów, które zostały udostępnione publicznie, nawet jeśli zostały objęte prawem autorskim. A później ewentualnie są te obwarowania dotyczące publikacji, o których wspomniałem wcześniej. Ale w przypadku tekstów, które zostały opublikowane na określonej licencji, to właśnie ona reguluje to, czego powinniśmy dochować, żeby pokazać, że odpowiednio podeszliśmy do wykorzystania utworu. Takie licencje jak Creative Commons mogą być bardzo otwarte, właściwie umożliwiające wszystko bez żadnych ograniczeń. Przykładem takiej licencji jest licencja CC0, która sprawia, że utwór jest praktycznie przeniesiony do domeny publicznej, nic nie musimy robić, żeby z niego korzystać. No ale tutaj pojawia się etyka: nie dobrze jest korzystać w takiej sytuacji z utworu, nie podając choćby autora czy źródła, z którego korzystaliśmy.

Licencje Creative Commons mogą być mniej lub bardziej ograniczone. Mogą mówić o tym, że możemy wykorzystywać utwór tylko do działań niekomercyjnych, albo że nie możemy tworzyć utworów pokrewnych. Czyli wczytanie się w licencję, w przypadku chociażby Creative Commons, powie nam, w jaki sposób możemy przetwarzać dane i gdzie kończą się nasze możliwości. Myślę, że to są trzy najważniejsze rzeczy: prawo autorskie, określone licencje, na których zostały wypuszczone utwory i w końcu kwestia etyczna.

MŻ: Dziękuję bardzo. Skoro już wiemy w takim razie, co możemy robić z takimi zasobami, to spójrzmy na to, co ludzie faktycznie z nimi robią. Z pana doświadczenia jako właśnie współtwórcy tych zasobów, jako badacza, jakie rodzaje otwartych zasobów językowych mogą być przydatne w konkretnych dyscyplinach. Jesteśmy na przykład na kanale ohistorie.eu, więc interesuje nas historia. Co może zatem być przydatne dla historyków, co dla językoznawców, co dla jeszcze innych dziedzin, na przykład literaturoznawców.

MO: Właściwie z mojego doświadczenia, też wynikającego chociażby z kontaktu z różnymi użytkownikami naszej infrastruktury CLARIN, to właściwie praktycznie nie ma ograniczeń. Często jest tak, że myślimy, że coś jest materiałem dobrym dla literaturoznawcy, a okazuje się, że może z tego korzystać nie tylko historyk, ale też socjolog i inni. Właściwie tutaj mamy cały czas do czynienia z przełamywaniem różnych stereotypów dotyczących tego, z jakich źródeł mogą korzystać różne dyscypliny.

Właściwie ten sam tekst, chociażby taki, który powstał przed wiekami, czyli stereotypowo dobry dla historyka, zwłaszcza jeśli jest to jakiś dokument faktograficzny, badany przez językoznawcę, będzie dotykał innych aspektów. Może zatem być równie dobrym źródłem dla lingwisty. Weźmy przykładowo całe zbiory, które mamy w Polonie. Trudno powiedzieć, że to są zbiory przydatne tylko dla historyków wyłącznie z tego powodu, że tam są głównie teksty czy innego rodzaju materiały pochodzące sprzed wielu lat.

Są takie dyscypliny, które mogą nam się kojarzyć z drugiej strony z badaniem języka w kontekście współczesności. Ja z tym długo kojarzyłem pragmatykę językową jako obszar, gdzie zajmujemy się tym, co się dzieje teraz w warstwie komunikacyjnej. Jednak jest również cały obszar pragmalingwistyki historycznej, który zajmuje się badaniem kwestii chociażby potoczności w tekstach dawnych. Jednym z takich przykładów są działania zespołu prowadzonego przez prof. Magdalenę Pastuch z Uniwersytetu Śląskiego. Są to działania nawet wzorcowe, powiedziałbym, jeśli chodzi o wykorzystanie naszej infrastruktury. Mamy tu do czynienia z badaniem wyznaczników potoczności na podstawie przede wszystkim tekstów dramatycznych[1] pochodzących sprzed wieków, od XVIII wieku aż do wieku XX. To są teksty dawne. Wydawałoby się, że dramat to będzie coś, co będzie interesowało literaturoznawcę, a stało się świetnym źródłem dla lingwistów, a konkretnie językoznawców zajmujących się aspektem pragmatycznym. Może trochę odwróciłem pana pytanie, ale wydaje mi się, że właśnie w tę stronę to wszystko zmierza.

Oczywiście są takie zasoby, które ze względu na swoją specyfikę może nie będą aż tak interesujące dla różnych badaczy. Przykładowo: upowszechniają się dobrze przygotowane korpusy językowe. One występują w różnych typach. Jednym z nich jest korpus zrównoważony, który stara się balansować różne style, gatunki, po to żeby być dobrym materiałem przede wszystkim dla językoznawcy. Być może z tego względu, że to jest materiał troszeczkę „pocięty”, nie będzie bardzo dobrym źródłem dla historyka, który wolałby mieć dostęp do pełnych tekstów. Tak więc mogą pojawiać się takie niuanse, niemniej generalnie widzę to raczej jako takie przekraczanie granic i to już od dłuższego czasu.

MŻ: To skoro już przekraczamy granice, może kojarzy pan doktor jakieś zasoby, które są z dziedzin kompletnie niehumanistycznych, ale były wykorzystywane w badaniach humanistycznych?

MO: Tutaj konsekwentnie powiem „tak”, kojarzę takie sytuacje. Wydaje mi się, że można do tego zaliczyć dane o charakterze przestrzennym. Różnego rodzaju mapy, które również powstają jako zasoby otwarte. Mamy różne inicjatywy, różne portale, które umożliwiają otwarty dostęp do danych przestrzennych. Tego typu dane mogą być wykorzystywane w humanistyce. Tutaj mam na myśli taki zwrot przestrzenny, który bada wzajemne oddziaływanie człowieka i przestrzeni. Dane o charakterze czasoprzestrzennym są bardzo istotne dla takich badań.

Przykłady mamy chociażby z Centrum Humanistyki Cyfrowej IBL PAN, gdzie tego typu badania, także we współpracy z nami, były prowadzone. Obserwujemy ten trend także w działaniach DARIAH, gdzie powstaje chociażby platforma do wizualizacji i współdzielenia danych przestrzennych GeoHum[2]. Także widzimy nawet w nazwie: mamy tutaj dwie dyscypliny, które są z różnej bajki, można by powiedzieć, ale okazuje się, że niekoniecznie.

I w drugą stronę właściwie również to działa. Wspomniał pan na początku o tym zespole, w którym mam przyjemność jeszcze czasem grać. Z nim i z tego typu danymi też wiąże się pewna historia. Wspólnie z kolegą z tego zespołu napisaliśmy artykuł, który właściwie jest takim przekraczaniem tych granic. Mój kolega jest planistą, zajmuje się konkretnie komunikacją w procesie planowania przestrzennego. Teoretycznie to jest architektura, tego typu klimaty, ale badamy teksty. Badamy różnego rodzaju teksty, które są też otwarte, bo należą do domeny publicznej. Ten konkretny artykuł jest wynikiem badania różnego rodzaju rozporządzeń. W drugą stronę zatem też to działa. Dziedziny, które nie są kojarzone przynajmniej stereotypowo z badaniem tekstów, rzeczywiście po nie sięgają.

MŻ: Czyli wszystkie granice się powoli zacierają i po prostu nauka staje się swego rodzaju sztuką, takim pokazem kreatywności.

MO: Myślę, że tak było właściwie od początku. Jakieś granice pomiędzy nauką i sztuką oczywiście istnieją, ale rzeczywiście ten element twórczości jest przeogromny w obu tych dziedzinach.

MŻ: Tak. A propos twórczości przejdźmy w takim razie teraz do tworzenia otwartych zasobów językowych. Odwróćmy sytuację jeszcze raz i postawmy się w roli naukowca, który właśnie zamierza rozpocząć projekt. Mam tu przygotowany pewien kontekst.

Załóżmy, że jest badacz, który chce przeprowadzić projekt językoznawczy dotyczący specyficznego słownictwa w jakimś konkretnym żargonie, socjolekcie, profesjolekcie, języku branżowym. W trakcie przygotowania tego projektu zbiera różne materiały: teksty z forów, artykuły specjalistyczne, prasę tematyczną, transkrypcję podcastów.

Podstawowe pytanie, które się nasuwa, gdy już mamy taką stertę materiałów: jak przygotować zasób językowy w taki sposób, żeby w perspektywie przyszłego udostępnienia mógł być przydatny i przejrzysty dla innego użytkownika? Jakie dobre praktyki mógłby pan zasugerować?

MO: Na pewno jednym z pierwszych kroków powinno być zbadanie tych źródeł pod kątem tego, co ja mogę z nimi później zrobić chociażby z perspektywy statusu prawnego. Później zbadanie ich specyfiki i charakteru, sprawdzenie, jakiego typu teksty i wypowiedzi, powstają w ramach tych źródeł i jak to powinno być później reprezentowane w finalnym korpusie.

Właśnie – w korpusie. Dobrze by było, żeby ostatecznie w miarę możliwości był to jednolity korpus. Pytanie czy przy tak różnych źródłach będzie to możliwe. Przy takich jak pan wspomniał, bo mamy tu i dialogi, i teksty pojawiające się w Internecie, transkrypcje rozmów. To są dość różne dane. Pytanie czy rzeczywiście one będą mogły tworzyć użyteczny, spójny korpus.

Kolejna rzecz odnosiłaby się do reprezentacji. Należałoby zastanowić się nad tym, jaki format danych zastosować, jaki będzie odpowiedni. Jednym z najgorszych rozwiązań jest wyrzucenie to repozytorium zasobu, który składa się z różnych plików, z dokumentów, plików txt, z arkuszy Excela itd., bo właściwie nie wiadomo jak z tego korzystać w sposób jednolity. Więc konieczna byłaby próba opracowania, a może nie tyle opracowania, co wykorzystania i ewentualnego zmodyfikowania jakiegoś spójnego formatu dla tych danych. Może to być chociażby format TEI, który jest szeroko wykorzystywany przez humanistów.

Trzeba się zastanowić również na samym początku tego procesu, jakie elementy opisu naszych danych się pojawią. Czasem jest tak, że gromadzimy jakiś materiał, ale to gromadzenie polega na tym, że po prostu pobieramy coś skądś, a później się okazuje, że nie mamy dokładnych informacji dotyczących źródła z jakiego ten materiał pochodzi. Nie wiemy nic albo niewiele o autorach. Nie wiemy, kiedy te dane zostały pobrane, czy w zeszłym roku, czy wcześniej. Tak więc również na samym początku całego procesu powinniśmy się zastanawiać nad metadanami. Ten termin może nie jest zbyt lubiany, ale jest to ważny element naszej pracy. Są to wszelkie informacje na temat zasobów, z których korzystamy. Lepiej jest zebrać ich więcej niż mniej. To chyba Kazimierz Górski mawiał, że łatwiej kijek pocienkować, niż go później pogrubasić. Wydaje mi się, że to Kazimierzowi Górskiemu się przypisuje, ale można to również odnieść do metadanych. Lepiej zebrać więcej informacji, a później ewentualnie się ich pozbyć niż w drugą stronę. To są kroki, które też przygotują nas później do udostępnienia tego zasobu.

Jeszcze dodatkowo jest element związany z samym udostępnieniem i kolejna pula dobrych praktyk, która się wiąże z tym finalnym etapem. Na przykład w CLARIN-ie stosowany jest standard metadanych CMDI, który umożliwia z jednej strony dostosowanie opisu metadanymi do danego zasobu, ale z drugiej strony pewną standaryzację. Dobrą praktyką w przypadku CMDI byłoby spojrzenie na różne profile, w ramach których są opisywane materiały, żeby zobaczyć jak podobne do naszego zasoby są opisywane przez innych naukowców, z jakich kategorii opisu korzystają inni. Po to właśnie są tworzone profile. Na przykład osobny profil będziemy mieli dla dialogów, osobny profil dla korpusów tekstowych anotowanych itd. Tak więc to może być źródło pewnej inspiracji, a może wprost powinniśmy wykorzystać już pewien istniejący standard, żeby zwiększać ten poziom otwartości naszych danych.

Dobrą praktyką będzie oczywiście umieszczanie naszych zasobów w takich repozytoriach, które umożliwiają szerokie ich rozpropagowanie. Takich, które znajdują się w jakichś globalnych wyszukiwarkach zasobów. Tutaj może trochę zareklamuje CLARIN, bo nasze repozytorium umożliwia nie tylko nadanie trwałego identyfikatora dla zasobu, ale też to, że później wszystko, co tam umieścimy, znajdzie się w wirtualnym obserwatorium europejskiego CLARIN-u i trafi do generalnego huba zbierającego informacje z różnych repozytoriów, które umożliwiają rozpowszechnienie informacji o naszych danych. To, co ląduje w naszym CLARIN-owym polskim repozytorium, jest widoczne w wirtualnym obserwatorium CLARIN, a później trafia chociażby na SSH Open Marketplace, czyli miejsce, które gromadzi dane jeszcze z większej liczby repozytoriów. Można powiedzieć, że dane idą coraz wyżej i wyżej.

Jeśli to jest możliwe, dobrze jest, żeby dane od razu były prezentowane w formie jakiejś wyszukiwarki, gdzie mamy nie tylko dostęp, ale również możliwość pracy z tekstem. Przykładem takiego zasobu jest chociażby Korpus Dyskursu Parlamentarnego[3], który powstaje w IPI PAN. Został on umieszczony w wyszukiwarce na silniku Korpusomatu i od razu może być przeszukiwany. Albo wracając do zespołu prof. Magdaleny Pastuch, ten korpus dramatów znalazł się w serwisie DraCor, który umożliwia nie tylko przeglądanie tych dramatów, ale – co więcej – ich eksplorację na tych samych zasadach, na których eksplorowane są dramaty z innych języków, co tworzy pewien spójny system.

MŻ: Czyli wiemy już w takim razie jak udostępnić i jak przygotować do udostępnienia nasze dane. Teraz pytanie, które może być trochę kontrowersyjne – pewnie coraz mniej, ale myślę, że nadal może budzić pewne kontrowersje – czyli dlaczego udostępnić? Co ja, badacz, będę z tego miał, jeśli dam dostęp do swoich danych innych badaczom za free? Jakie korzyści dla mnie – indywidualnego badacza – z tego płyną?

MO: Jak teraz na to patrzę, zbierając doświadczenia z tego ostatniego okresu, tak naprawdę chyba więcej jest plusów niż minusów. Więcej jest tych korzyści dla badacza, przynajmniej w mojej ocenie. Nie tylko chodzi o to, że czasem jestem zobligowany do tego, żeby udostępnić dane, bo realizuję projekt, który niejako wymusza na mnie jako naukowcu, który korzysta ze środków publicznych, żebym udostępnił wyniki badań. To również jest korzyść – zrealizuję projekt dobrze, zostanie on rozliczony. Na pewno to jest korzyść, taka dość podstawowa. Ale tych korzyści jest więcej.

Dane, które są danymi otwartymi, zasoby, które udostępnię w sposób otwarty zgodnie ze standardem FAIR, również w tym pierwszym członie, czyli gdy będą odnajdywalne, sprawią, że wyniki moich prac będą cytowane przez innych naukowców częściej. To może pozwolić nawiązać jakąś współpracę z kimś, kto zajmuje się podobnym problemem i rodzić dalsze korzyści w postaci rozwoju naukowego.

Są też inne plusy. W ewaluacji naukowej czasem takie publikacje są premiowane przez różne instytucje czy granty. Więc właściwie myślę, że przynajmniej w tym momencie jest więcej korzyści z takiego sposobu publikowania zasobów, oczywiście, jeśli jest zgodny z tymi standardami i zasadami, które są promowane przez instytucje takie jak Komisja Europejska, polskie instytucje, również przez polskie prawodawstwo. Jeśli to będzie zrobione w rzetelny sposób, zgodnie z pewnymi standardami myślę, że przyniesie to wiele korzyści.

MŻ: A potencjalne minusy, skoro już pan doktor wspomniał?

MO: Teraz muszę mocno poszukać tych minusów. Co mogę sobie wyobrazić, że będzie minusem opublikowania…? Nie jest takie proste jak się okazuje. Może dlatego, że od początku jestem powiązany z CLARIN-em, który stawia na otwarte zasoby, więc jest to pewnie dla mnie coś naturalnego.

Ale oczywiście minusem, przy czym mówimy tu o sytuacjach, które wiążą się z pewną nierzetelnością i nieuczciwością, może być to, że na przykład można korzystać z wyników moich badań i w jakiś sposób podpinać je pod swoje osiągnięcia. To rzeczywiście jest coś niedobrego, ale wynika już z tego, że ktoś inny nie zachował pewnych zasad i pewnie też to prędzej czy później wyjdzie. Ale jeśli miałbym szukać, to być może takich sytuacji związanych właśnie z pewną nieuczciwością.

MŻ: Które pewnie będą już w naszych czasach coraz rzadsze, prawda?

MO: Tak, też w związku z tym, że wszystko teraz staje się coraz bardziej transparentne. Myślę, że to powinno przynajmniej pójść w taką stronę. Może to tak górnolotnie zabrzmi, ale przecież pracujemy nad pewnym wspólnym dobrem. Nauka jest fantastyczna, bo daje nam możliwość poznawania świata, w którym żyjemy. Im więcej o nim wiemy, tym lepiej. Jeśli dzielimy się tą wiedzą, to generalnie też lepiej, bo właśnie tak możemy się rozwijać. Oczywiście należy dzielić się tą wiedzą, którą możemy się dzielić. Mówiliśmy właśnie o sytuacjach, w których nie możemy pewnych informacji przekazywać dalej, ale tu chodzi o coś, co będzie użyteczne publicznie i możliwe do rozpowszechnienia.

MŻ: Jakie piękne zakończenie nam się tu zrobiło. Mamy więc takie przesłanie: pracujmy na otwartych zasobach, twórzmy je, korzystajmy i przyczyniajmy się do tego dobra wspólnego, jakim jest nauka. Dziękuję bardzo za inspirującą i ciekawą rozmowę. Mam nadzieję, że będzie więcej takich w przyszłości.

MO: Również bardzo dziękuję.


[1] https://www.dracor.org/pol

[2] https://ihpan.edu.pl/en/dariah-lab-en/geohum/

[3] https://kdp.ipipan.waw.pl/query_corpus/6/