Nowoczesne technologie w humanistyce. Cz. 2. Możliwości, ograniczenia, zagrożenia

Portal ohistorie.eu zaprasza do obejrzenia i wysłuchania rozmowy:

Nowoczesne technologie w humanistyce

| Część II |

Możliwości, ograniczenia, zagrożenia

Rozmowa koncentruje się na zagadnieniach związanych z projektowaniem i realizacją badań z wykorzystaniem nowoczesnej infrastruktury. Omówione zostają zarówno możliwości i perspektywy, jak i ograniczenia oraz zagrożenia, z którymi mogą się zetknąć humaniści (i nie tylko) chcący wykorzystać w praktyce badawczej wyspecjalizowane narzędzia cyfrowe. Podczas dyskusji zostało podjętych kilka wątków, m.in.: Czy prowadzenie badań z użyciem nowych technologii to nauka czy może efekciarstwo dla leniwych? Czy humanista wykorzystujący nowe technologie to świadomy naukowiec czy raczej rzemieślnik i operator narzędzi? Na ile nowoczesna infrastruktura badawcza wspomaga humanistów w ich badaniach, a na ile ich wyręcza? Jaki wpływ na projektowanie i realizację badań ma rozwój technologii? Charakterystyce dyskutowanych problemów, wśród których pojawia się także kwestia aplikowania o granty i polityka otwartości danych, towarzyszą liczne odwołania do konkretnych przykładów wykorzystania nowoczesnej infrastruktury w praktyce badawczej.

W rozmowie biorą udział eksperci:

Dr Jan Wieczorek (CLARIN)

CLARIN-PL, Katedra Sztucznej Inteligencji Politechniki Wrocławskiej

Dr Beata Jarosz (UMCS)

Instytut Językoznawstwa i Literaturoznawstwa UMCS w Lublinie

Pod materiałem wideo publikujemy słownik pojęć z obszaru humanistyki cyfrowej opracowany przez dr Beatę Jarosz (konsultacja merytoryczna: dr Jan Wieczorek).

Distant reading – metoda analizy dużych zbiorów tekstów literackich przy użyciu nowoczesnej infrastruktury, w tym narzędzi opartych na automatycznym przetwarzaniu języka naturalnego. Twórca termin i założeń teoretycznych – Franco Moretti (Conjectures on World Literature, „New Left Review” 2000).

Analiza topikowa (ang. topic modeling; inaczej: analiza tematyczna) – automatyczne identyfikowanie tematów występujących zarówno w pojedynczym tekście, jak i w ogromnym korpusie. Jedną z technik wykorzystywanych w tym celu jest LDA (Latent Dirichlet Allocation ‘ukryta alokacja Dirichleta’), która polega na identyfikacji tematów w zbiorze tekstów na podstawie analizy częstości współwystępowania słów i ich wzajemnych relacji.

Stylometria – metoda analizy tekstu, która pozwala ustalać autorstwo lub chronologię tekstu na podstawie charakterystyki gramatycznego stylu pisania. Badania stylometryczne mogą być też wykorzystywane m.in. do wykrywania plagiatu czy identyfikowania różnic stylistycznych w tekstach różnych autorów. Narzędzia do automatycznej stylometrii (np. WebSty) pozwalają uzyskać informacje o statystykach wyrazów, ich bogactwie czy przynależności tematycznej, dzięki czemu możliwe jest określenie charakterystycznych cech opisujących i różnicujących.

Anotacja – systematyczne oznaczanie słów, fragmentów tekstu lub całych dokumentów etykietami w celu skategoryzowania poszczególnych segmentów lub wprowadzenia dodatkowych informacji. Taki opis (wykonywany np. w aplikacji Inforex) ułatwia przeszukiwanie i analizę materiałów zgromadzonych w korpusie.

Model transformatywno-generatywny – model stosowany w uczeniu maszynowym (tzn. w programowaniu komputerowym), który (1) dokonuje przetwarzania tekstów oraz innych typów danych i (2) służy do generowania tekstu lub innych zasobów na podstawie przetworzonych danych wejściowych. MTG ma zastosowanie m.in. w tłumaczeniu maszynowym, automatycznym streszczaniu tekstów lub w tworzeniu chatbotów.

Halucynacje – zjawisko generowania przez sztuczną inteligencję danych i wyobrażeń, które nie są zgodne z rzeczywistością albo nie mają odpowiedniego odniesienia do danych wejściowych. Halucynacje mogą obejmować m.in. generowanie tekstu zawierającego nieprawdziwe informacje lub nielogiczne wnioski albo obrazów przedstawiających nieistniejące obiekty lub sceny.

OCR-owanie (ang. optical character recognition ‘optyczne rozpoznawanie znaków’) – proces przekształcania przy pomocy specjalnego oprogramowania zeskanowanego tekstu lub obrazu na dane tekstowe (wyrażone w postaci liter i znaków), które można następnie edytować, grupować i przetwarzać komputerowo.

Język CQL (Corpus Query Language ‘język zapytań korpusowych’)– specjalny język zapytań wykorzystywany w lingwistyce korpusowej i w innych dziedzinach zajmujących się przetwarzaniem języka naturalnego. Umożliwia (np. w programie Sketch Engine) wyszukiwanie w korpusie złożonych wzorców gramatycznych lub leksykalnych (przydatnych w analizie składniowej i semantycznej) oraz formułowanie złożonych zapytań (np. statystycznych) z uwzględnieniem kryteriów wyszukiwania, których nie można ustawić przy użyciu standardowego interfejsu użytkownika.

Nowoczesne technologie w humanistyce (Część I)

| Część I | CLARIN-PL i jego narzędzia w praktyce badawczej

Portal ohistorie.eu zaprasza do obejrzenia i wysłuchania rozmowy:

Nowoczesne technologie w humanistyce

| Część I |

CLARIN-PL i jego narzędzia w praktyce badawczej

Dyskusja jest poświęcona wyzwaniom, korzyściom oraz zagrożeniom, jakie są związane z wykorzystaniem nowoczesnych technologii w badaniach humanistycznych. Rozmowa koncentruje się na omówieniu potencjału elektronicznej infrastruktury badawczej opracowywanej dla naukowców w konsorcjum CLARIN-PL. Przybliżone zostały zaawansowane narzędzia oparte na technologii przetwarzania języka naturalnego, które mogą wspomagać nie tylko humanistów (językoznawców, literaturoznawców, historyków itd.), ale też przedstawicieli innych dyscyplin naukowych (np. ekonomistów, prawników, medyków) w realizacji rozmaitych projektów. Charakterystyce towarzyszą liczne odwołania do konkretnych przykładów wykorzystania nowoczesnej infrastruktury w praktyce badawczej.

W rozmowie biorą udział eksperci:

Dr Jan Wieczorek (CLARIN)

CLARIN-PL, Katedra Sztucznej Inteligencji Politechniki Wrocławskiej

Dr Beata Jarosz (UMCS)

Instytut Językoznawstwa i Literaturoznawstwa UMCS w Lublinie

Pod materiałem wideo publikujemy słownik pojęć z obszaru humanistyki cyfrowej opracowany przez dr Beatę Jarosz.

Analiza wydźwięku (inaczej: analiza sentymentu) – proces automatycznego określenia wydźwięku tekstu poprzez identyfikację elementów nacechowanych pozytywnie/negatywnie lub neutralnych. Metoda ta wykorzystywana jest nie tylko w badaniach naukowych, ale też w marketingu, ponieważ jest przydatna zarówno w identyfikacji emocjonalnego stanu autorów tekstu, jak i w monitorowaniu opinii klientów.

Analiza morfosyntaktyczna – proces analizowania struktury gramatycznej zdania poprzez opis poszczególnych wyrazów, tzn. identyfikowanie kategorii gramatycznych (takich, jak rodzaj, liczba, przypadek), oraz łączących je relacji syntaktycznych.

Stylometria – metoda analizy tekstu, która pozwala ustalać autorstwo lub chronologię tekstu na podstawie charakterystyki stylu pisania. Badania stylometryczne mogą być też wykorzystywane m.in. do wykrywania plagiatu czy identyfikowania różnic stylistycznych w tekstach różnych autorów. Narzędzia do automatycznej stylometrii (np. WebSty) pozwalają uzyskać informacje o statystykach wyrazów, ich bogactwie czy przynależności tematycznej, dzięki czemu możliwe jest określenie charakterystycznych cech opisujących i różnicujących.

(Data) preprocessing – przygotowanie danych wejściowych do formy najbardziej odpowiedniej dla algorytmów uczenia maszynowego. Obejmuje ono różne działania wykonywane przed analizą danych, w tym ich filtrację i przekształcenie, usunięcie z zestawu danych uszkodzonych, niekompletnych i nieprawidłowych.

Tagowanie morfosyntaktyczne – proces przypisywania do poszczególnych słów w tekście (lub szerzej – korpusie) znaczników (tagów) określających ich cechy gramatyczne, tzn. reprezentowaną część mowy, rodzaj, liczbę, przypadek itp. Działanie to stosuje się w przetwarzaniu języka naturalnego m.in. do analizy i zrozumienia struktury zdania, wykrywania relacji semantycznych oraz automatycznego tłumaczenia maszynowego.

Wordnet – baza danych leksykalno-semantycznych (funkcjonująca jako słownik relacyjny) obejmująca rzeczowniki, czasowniki, przymiotniki i przysłówki. Poszczególne jednostki leksykalne pogrupowane są w zbiory synonimów, tzw. synsetów, i powiązane siecią relacji semantycznych (typu hiponimia, meronimia), z których można wyczytać znaczenie wyrazów. Dane zawarte w wordnetach stanowią jeden z podstawowych zasobów wykorzystywanych do projektowania narzędzi do przetwarzania języka naturalnego.

ChronoPress – ogólnodostępny korpus dziedzinowy zawierający obecnie ok. 100 tys. fragmentów polskich komunikatów prasowych z lat 1945–1964. Dzięki opisaniu poszczególnych segmentów tekstowych za pomocą znaczników (tagów) możliwe jest generowanie statystyk, zestawień, charakterystyk podzbiorów i chronologicznej osi frekwencyjnej. Docelowo korpus ma obejmować teksty prasowe z lat 1918–2018.

Słowosieć (PlWordNet) – polski wordnet, tzn. relacyjny słownik semantyczny opracowywany w ośrodku CLARIN-PL. Jednostki leksykalne (czasowniki, rzeczowniki, przymiotniki i przysłówki) są grupowane w synsety i opisywane za pomocą sieci relacji semantycznych ustanawianych pomiędzy poszczególnymi hasłami. Obecnie Słowosieć zawiera 191 tys. słów, 285 tys. znaczeń oraz ponad 600 tys. relacji i jest największym wordnetem na świecie, który nieustannie się rozrasta.

Zajawka wywiadu z historykami z UMCS w Lublinie – twórcami aplikacji mobilnej „Szlakami Polski Niepodległej 1914-1922” – prof. Janem Pomorskim, mgr. Karolem Kasprowiczem i mgr. Bartłomiejem Stolarzem

Nazywam się Piotr Witek i zapraszam Państwa do wysłuchania rozmowy z prof. Janem Pomorskim, mgr. Karolem Kasprowiczem oraz mgr. Bartłomiejem Stolarzem z Instytutu Historii Uniwersytetu Marii Curie Skłodowskiej w Lublinie – twórcami mobilnej aplikacji: „Szlakami Polski Niepodległej 1914-1922”.

Aplikacja, której premiera miała miejsce w roku 2019, jest transmedialną opowieścią historyczną prezentującą losy zmagań Polaków o niepodległość w 1918 roku, pokazującą toczone przez nich walki o granice II Rzeczypospolitej.

Aplikacja zawiera interaktywny atlas historyczny oraz pięć lekcji historii, z których każda zaczyna się od syntetycznego wprowadzenia w problematykę w dwóch postaciach do wyboru: tekstu pisanego oraz komentarza odczytywanego przez lektora.

W kwietniu 2020 roku ukazała się jej wersja anglojęzyczna.

I ten właśnie fakt wydaje się dobrym pretekstem, żeby kilka miesięcy po premierowym ukazaniu się aplikacji na rynku, wrócić do tematu i podyskutować o niej w nieco szerszym kontekście – zmian zachodzących we współczesnej kulturze generowanych przez zwrot cyfrowy, który w dalszej kolejności prowadzi do przemian w obszarze nauk humanistycznych – powstania nowej dziedziny humanistyki określanej mianem humanistyki cyfrowej – oraz przemian w szeroko rozumianej edukacji humanistycznej.

Z twórcami aplikacji rozmawiam o tym, czemu aplikacja ma służyć i do kogo jest adresowana.

Kto był pomysłodawcą tego projektu? W jakich okolicznościach pomysł powstał?

Jak długo trwały prace nad aplikacją? Co inspirowało twórców i pomagało im w przygotowaniu się do realizacji projektu?

Jak wyglądała współpraca członków zespołu – akademickich historyków – z grafikami, specjalistami od animacji, scenarzystami, reżyserką animowanego filmu „Bitwa warszawska”.

Rozmawiam także o przygotowanym przez twórców aplikacji przewodniku metodycznym dla nauczycieli, mającym służyć im pomocą przy wykorzystywaniu jej na lekcjach historii.

Aplikacja jest dostępna nieodpłatnie w App Store oraz Google Play

Wywiad już wkrótce zostanie udostępniony w formie podcastu oraz wideo na portalu ohistorie.eu, na naszym kanale na YouTube, a także na platformach podcastingowych: spoitfy, anchor.fm, google podcasts i innych.

W materiale wykorzystano fragmenty komentarza oraz muzyki pochodzące z aplikacji.

Zapraszamy do słuchania i oglądania.