Nowoczesne technologie w humanistyce. Cz. 2. Możliwości, ograniczenia, zagrożenia

Portal ohistorie.eu zaprasza do obejrzenia i wysłuchania rozmowy:

Nowoczesne technologie w humanistyce

| Część II |

Możliwości, ograniczenia, zagrożenia

Rozmowa koncentruje się na zagadnieniach związanych z projektowaniem i realizacją badań z wykorzystaniem nowoczesnej infrastruktury. Omówione zostają zarówno możliwości i perspektywy, jak i ograniczenia oraz zagrożenia, z którymi mogą się zetknąć humaniści (i nie tylko) chcący wykorzystać w praktyce badawczej wyspecjalizowane narzędzia cyfrowe. Podczas dyskusji zostało podjętych kilka wątków, m.in.: Czy prowadzenie badań z użyciem nowych technologii to nauka czy może efekciarstwo dla leniwych? Czy humanista wykorzystujący nowe technologie to świadomy naukowiec czy raczej rzemieślnik i operator narzędzi? Na ile nowoczesna infrastruktura badawcza wspomaga humanistów w ich badaniach, a na ile ich wyręcza? Jaki wpływ na projektowanie i realizację badań ma rozwój technologii? Charakterystyce dyskutowanych problemów, wśród których pojawia się także kwestia aplikowania o granty i polityka otwartości danych, towarzyszą liczne odwołania do konkretnych przykładów wykorzystania nowoczesnej infrastruktury w praktyce badawczej.

W rozmowie biorą udział eksperci:

Dr Jan Wieczorek (CLARIN)

CLARIN-PL, Katedra Sztucznej Inteligencji Politechniki Wrocławskiej

Dr Beata Jarosz (UMCS)

Instytut Językoznawstwa i Literaturoznawstwa UMCS w Lublinie

Pod materiałem wideo publikujemy słownik pojęć z obszaru humanistyki cyfrowej opracowany przez dr Beatę Jarosz (konsultacja merytoryczna: dr Jan Wieczorek).

Distant reading – metoda analizy dużych zbiorów tekstów literackich przy użyciu nowoczesnej infrastruktury, w tym narzędzi opartych na automatycznym przetwarzaniu języka naturalnego. Twórca termin i założeń teoretycznych – Franco Moretti (Conjectures on World Literature, „New Left Review” 2000).

Analiza topikowa (ang. topic modeling; inaczej: analiza tematyczna) – automatyczne identyfikowanie tematów występujących zarówno w pojedynczym tekście, jak i w ogromnym korpusie. Jedną z technik wykorzystywanych w tym celu jest LDA (Latent Dirichlet Allocation ‘ukryta alokacja Dirichleta’), która polega na identyfikacji tematów w zbiorze tekstów na podstawie analizy częstości współwystępowania słów i ich wzajemnych relacji.

Stylometria – metoda analizy tekstu, która pozwala ustalać autorstwo lub chronologię tekstu na podstawie charakterystyki gramatycznego stylu pisania. Badania stylometryczne mogą być też wykorzystywane m.in. do wykrywania plagiatu czy identyfikowania różnic stylistycznych w tekstach różnych autorów. Narzędzia do automatycznej stylometrii (np. WebSty) pozwalają uzyskać informacje o statystykach wyrazów, ich bogactwie czy przynależności tematycznej, dzięki czemu możliwe jest określenie charakterystycznych cech opisujących i różnicujących.

Anotacja – systematyczne oznaczanie słów, fragmentów tekstu lub całych dokumentów etykietami w celu skategoryzowania poszczególnych segmentów lub wprowadzenia dodatkowych informacji. Taki opis (wykonywany np. w aplikacji Inforex) ułatwia przeszukiwanie i analizę materiałów zgromadzonych w korpusie.

Model transformatywno-generatywny – model stosowany w uczeniu maszynowym (tzn. w programowaniu komputerowym), który (1) dokonuje przetwarzania tekstów oraz innych typów danych i (2) służy do generowania tekstu lub innych zasobów na podstawie przetworzonych danych wejściowych. MTG ma zastosowanie m.in. w tłumaczeniu maszynowym, automatycznym streszczaniu tekstów lub w tworzeniu chatbotów.

Halucynacje – zjawisko generowania przez sztuczną inteligencję danych i wyobrażeń, które nie są zgodne z rzeczywistością albo nie mają odpowiedniego odniesienia do danych wejściowych. Halucynacje mogą obejmować m.in. generowanie tekstu zawierającego nieprawdziwe informacje lub nielogiczne wnioski albo obrazów przedstawiających nieistniejące obiekty lub sceny.

OCR-owanie (ang. optical character recognition ‘optyczne rozpoznawanie znaków’) – proces przekształcania przy pomocy specjalnego oprogramowania zeskanowanego tekstu lub obrazu na dane tekstowe (wyrażone w postaci liter i znaków), które można następnie edytować, grupować i przetwarzać komputerowo.

Język CQL (Corpus Query Language ‘język zapytań korpusowych’)– specjalny język zapytań wykorzystywany w lingwistyce korpusowej i w innych dziedzinach zajmujących się przetwarzaniem języka naturalnego. Umożliwia (np. w programie Sketch Engine) wyszukiwanie w korpusie złożonych wzorców gramatycznych lub leksykalnych (przydatnych w analizie składniowej i semantycznej) oraz formułowanie złożonych zapytań (np. statystycznych) z uwzględnieniem kryteriów wyszukiwania, których nie można ustawić przy użyciu standardowego interfejsu użytkownika.

Pobierz PDF Drukuj tekst

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.