Nowoczesne technologie w humanistyce. Cz. 2. Możliwości, ograniczenia, zagrożenia
Portal ohistorie.eu zaprasza do obejrzenia i wysłuchania rozmowy:
Nowoczesne technologie w humanistyce
| Część II |
Możliwości, ograniczenia, zagrożenia
Rozmowa koncentruje się na zagadnieniach związanych z projektowaniem i realizacją badań z wykorzystaniem nowoczesnej infrastruktury. Omówione zostają zarówno możliwości i perspektywy, jak i ograniczenia oraz zagrożenia, z którymi mogą się zetknąć humaniści (i nie tylko) chcący wykorzystać w praktyce badawczej wyspecjalizowane narzędzia cyfrowe. Podczas dyskusji zostało podjętych kilka wątków, m.in.: Czy prowadzenie badań z użyciem nowych technologii to nauka czy może efekciarstwo dla leniwych? Czy humanista wykorzystujący nowe technologie to świadomy naukowiec czy raczej rzemieślnik i operator narzędzi? Na ile nowoczesna infrastruktura badawcza wspomaga humanistów w ich badaniach, a na ile ich wyręcza? Jaki wpływ na projektowanie i realizację badań ma rozwój technologii? Charakterystyce dyskutowanych problemów, wśród których pojawia się także kwestia aplikowania o granty i polityka otwartości danych, towarzyszą liczne odwołania do konkretnych przykładów wykorzystania nowoczesnej infrastruktury w praktyce badawczej.
W rozmowie biorą udział eksperci:
Dr Jan Wieczorek (CLARIN)
CLARIN-PL, Katedra Sztucznej Inteligencji Politechniki Wrocławskiej
Dr Beata Jarosz (UMCS)
Instytut Językoznawstwa i Literaturoznawstwa UMCS w Lublinie
Pod materiałem wideo publikujemy słownik pojęć z obszaru humanistyki cyfrowej opracowany przez dr Beatę Jarosz (konsultacja merytoryczna: dr Jan Wieczorek).
Distant reading – metoda analizy dużych zbiorów tekstów literackich przy użyciu nowoczesnej infrastruktury, w tym narzędzi opartych na automatycznym przetwarzaniu języka naturalnego. Twórca termin i założeń teoretycznych – Franco Moretti (Conjectures on World Literature, „New Left Review” 2000).
Analiza topikowa (ang. topic modeling; inaczej: analiza tematyczna) – automatyczne identyfikowanie tematów występujących zarówno w pojedynczym tekście, jak i w ogromnym korpusie. Jedną z technik wykorzystywanych w tym celu jest LDA (Latent Dirichlet Allocation ‘ukryta alokacja Dirichleta’), która polega na identyfikacji tematów w zbiorze tekstów na podstawie analizy częstości współwystępowania słów i ich wzajemnych relacji.
Stylometria – metoda analizy tekstu, która pozwala ustalać autorstwo lub chronologię tekstu na podstawie charakterystyki gramatycznego stylu pisania. Badania stylometryczne mogą być też wykorzystywane m.in. do wykrywania plagiatu czy identyfikowania różnic stylistycznych w tekstach różnych autorów. Narzędzia do automatycznej stylometrii (np. WebSty) pozwalają uzyskać informacje o statystykach wyrazów, ich bogactwie czy przynależności tematycznej, dzięki czemu możliwe jest określenie charakterystycznych cech opisujących i różnicujących.
Anotacja – systematyczne oznaczanie słów, fragmentów tekstu lub całych dokumentów etykietami w celu skategoryzowania poszczególnych segmentów lub wprowadzenia dodatkowych informacji. Taki opis (wykonywany np. w aplikacji Inforex) ułatwia przeszukiwanie i analizę materiałów zgromadzonych w korpusie.
Model transformatywno-generatywny – model stosowany w uczeniu maszynowym (tzn. w programowaniu komputerowym), który (1) dokonuje przetwarzania tekstów oraz innych typów danych i (2) służy do generowania tekstu lub innych zasobów na podstawie przetworzonych danych wejściowych. MTG ma zastosowanie m.in. w tłumaczeniu maszynowym, automatycznym streszczaniu tekstów lub w tworzeniu chatbotów.
Halucynacje – zjawisko generowania przez sztuczną inteligencję danych i wyobrażeń, które nie są zgodne z rzeczywistością albo nie mają odpowiedniego odniesienia do danych wejściowych. Halucynacje mogą obejmować m.in. generowanie tekstu zawierającego nieprawdziwe informacje lub nielogiczne wnioski albo obrazów przedstawiających nieistniejące obiekty lub sceny.
OCR-owanie (ang. optical character recognition ‘optyczne rozpoznawanie znaków’) – proces przekształcania przy pomocy specjalnego oprogramowania zeskanowanego tekstu lub obrazu na dane tekstowe (wyrażone w postaci liter i znaków), które można następnie edytować, grupować i przetwarzać komputerowo.
Język CQL (Corpus Query Language ‘język zapytań korpusowych’)– specjalny język zapytań wykorzystywany w lingwistyce korpusowej i w innych dziedzinach zajmujących się przetwarzaniem języka naturalnego. Umożliwia (np. w programie Sketch Engine) wyszukiwanie w korpusie złożonych wzorców gramatycznych lub leksykalnych (przydatnych w analizie składniowej i semantycznej) oraz formułowanie złożonych zapytań (np. statystycznych) z uwzględnieniem kryteriów wyszukiwania, których nie można ustawić przy użyciu standardowego interfejsu użytkownika.