Nowoczesne technologie w humanistyce (Część I)

| Część I | CLARIN-PL i jego narzędzia w praktyce badawczej

Portal ohistorie.eu zaprasza do obejrzenia i wysłuchania rozmowy:

Nowoczesne technologie w humanistyce

| Część I |

CLARIN-PL i jego narzędzia w praktyce badawczej

Dyskusja jest poświęcona wyzwaniom, korzyściom oraz zagrożeniom, jakie są związane z wykorzystaniem nowoczesnych technologii w badaniach humanistycznych. Rozmowa koncentruje się na omówieniu potencjału elektronicznej infrastruktury badawczej opracowywanej dla naukowców w konsorcjum CLARIN-PL. Przybliżone zostały zaawansowane narzędzia oparte na technologii przetwarzania języka naturalnego, które mogą wspomagać nie tylko humanistów (językoznawców, literaturoznawców, historyków itd.), ale też przedstawicieli innych dyscyplin naukowych (np. ekonomistów, prawników, medyków) w realizacji rozmaitych projektów. Charakterystyce towarzyszą liczne odwołania do konkretnych przykładów wykorzystania nowoczesnej infrastruktury w praktyce badawczej.

W rozmowie biorą udział eksperci:

Dr Jan Wieczorek (CLARIN)

CLARIN-PL, Katedra Sztucznej Inteligencji Politechniki Wrocławskiej

Dr Beata Jarosz (UMCS)

Instytut Językoznawstwa i Literaturoznawstwa UMCS w Lublinie

Pod materiałem wideo publikujemy słownik pojęć z obszaru humanistyki cyfrowej opracowany przez dr Beatę Jarosz.

Anotacja – systematyczne oznaczanie słów, fragmentów tekstu lub całych dokumentów etykietami w celu skategoryzowania poszczególnych segmentów lub wprowadzenia dodatkowych informacji. Taki opis (wykonywany np. w aplikacji Inforex) ułatwia przeszukiwanie i analizę materiałów zgromadzonych w korpusie.

Analiza wydźwięku (inaczej: analiza sentymentu) – proces automatycznego określenia wydźwięku tekstu poprzez identyfikację elementów nacechowanych pozytywnie/negatywnie lub neutralnych. Metoda ta wykorzystywana jest nie tylko w badaniach naukowych, ale też w marketingu, ponieważ jest przydatna zarówno w identyfikacji emocjonalnego stanu autorów tekstu, jak i w monitorowaniu opinii klientów.

Analiza morfosyntaktyczna – proces analizowania struktury gramatycznej zdania poprzez opis poszczególnych wyrazów, tzn. identyfikowanie kategorii gramatycznych (takich, jak rodzaj, liczba, przypadek), oraz łączących je relacji syntaktycznych.

Stylometria – metoda analizy tekstu, która pozwala ustalać autorstwo lub chronologię tekstu na podstawie charakterystyki stylu pisania. Badania stylometryczne mogą być też wykorzystywane m.in. do wykrywania plagiatu czy identyfikowania różnic stylistycznych w tekstach różnych autorów. Narzędzia do automatycznej stylometrii (np. WebSty) pozwalają uzyskać informacje o statystykach wyrazów, ich bogactwie czy przynależności tematycznej, dzięki czemu możliwe jest określenie charakterystycznych cech opisujących i różnicujących.

(Data) preprocessing – przygotowanie danych wejściowych do formy najbardziej odpowiedniej dla algorytmów uczenia maszynowego. Obejmuje ono różne działania wykonywane przed analizą danych, w tym ich filtrację i przekształcenie, usunięcie z zestawu danych uszkodzonych, niekompletnych i nieprawidłowych.

Tagowanie morfosyntaktyczne – proces przypisywania do poszczególnych słów w tekście (lub szerzej – korpusie) znaczników (tagów) określających ich cechy gramatyczne, tzn. reprezentowaną część mowy, rodzaj, liczbę, przypadek itp. Działanie to stosuje się w przetwarzaniu języka naturalnego m.in. do analizy i zrozumienia struktury zdania, wykrywania relacji semantycznych oraz automatycznego tłumaczenia maszynowego.

Wordnet – baza danych leksykalno-semantycznych (funkcjonująca jako słownik relacyjny) obejmująca rzeczowniki, czasowniki, przymiotniki i przysłówki. Poszczególne jednostki leksykalne pogrupowane są w zbiory synonimów, tzw. synsetów, i powiązane siecią relacji semantycznych (typu hiponimia, meronimia), z których można wyczytać znaczenie wyrazów. Dane zawarte w wordnetach stanowią jeden z podstawowych zasobów wykorzystywanych do projektowania narzędzi do przetwarzania języka naturalnego.

ChronoPress – ogólnodostępny korpus dziedzinowy zawierający obecnie ok. 100 tys. fragmentów polskich komunikatów prasowych z lat 1945–1964. Dzięki opisaniu poszczególnych segmentów tekstowych za pomocą znaczników (tagów) możliwe jest generowanie statystyk, zestawień, charakterystyk podzbiorów i chronologicznej osi frekwencyjnej. Docelowo korpus ma obejmować teksty prasowe z lat 1918–2018.

OCR-owanie (ang. optical character recognition ‘optyczne rozpoznawanie znaków’) – proces przekształcania przy pomocy specjalnego oprogramowania zeskanowanego tekstu lub obrazu na dane tekstowe (wyrażone w postaci liter i znaków), które można następnie edytować, grupować i przetwarzać komputerowo.

Słowosieć (PlWordNet) – polski wordnet, tzn. relacyjny słownik semantyczny opracowywany w ośrodku CLARIN-PL. Jednostki leksykalne (czasowniki, rzeczowniki, przymiotniki i przysłówki) są grupowane w synsety i opisywane za pomocą sieci relacji semantycznych ustanawianych pomiędzy poszczególnymi hasłami. Obecnie Słowosieć zawiera 191 tys. słów, 285 tys. znaczeń oraz ponad 600 tys. relacji i jest największym wordnetem na świecie, który nieustannie się rozrasta.