Przejdź do treści
ohistorie logo

ISSN 2545-3459

Menu główne
  • O nas
    • Wydawca
    • Redakcja
  • Ohistorie
  • Kategorie
    • Artykuły
    • Aktualności
    • Opinie
    • Varia
    • Wywiady
    • wszystkie
    • Edukacja
    • Filmy
  • Kontakt
  • Współpraca
    • Informacja dla Autorów
  • Archiwum Ohistorie
  • Dom
  • 2024
  • marzec
  • J
  • Nowoczesne technologie w humanistyce (Część I)
  • Dyskusje

Nowoczesne technologie w humanistyce (Część I)

Piotr Witek 16 marca 2024 4 minutes read
Clarin-cz.-1-min_4.1.1

| Część  I | CLARIN-PL i jego narzędzia w praktyce badawczej

Portal ohistorie.eu zaprasza do obejrzenia i wysłuchania rozmowy:

Nowoczesne technologie w humanistyce

| Część  I |

CLARIN-PL i jego narzędzia w praktyce badawczej

Dyskusja jest poświęcona wyzwaniom, korzyściom oraz zagrożeniom, jakie są związane z wykorzystaniem nowoczesnych technologii w badaniach humanistycznych. Rozmowa koncentruje się na omówieniu potencjału elektronicznej infrastruktury badawczej opracowywanej dla naukowców w konsorcjum CLARIN-PL. Przybliżone zostały zaawansowane narzędzia oparte na technologii przetwarzania języka naturalnego, które mogą wspomagać nie tylko humanistów (językoznawców, literaturoznawców, historyków itd.), ale też przedstawicieli innych dyscyplin naukowych (np. ekonomistów, prawników, medyków) w realizacji rozmaitych projektów. Charakterystyce towarzyszą liczne odwołania do konkretnych przykładów wykorzystania nowoczesnej infrastruktury w praktyce badawczej.

W rozmowie biorą udział eksperci:

Dr Jan Wieczorek (CLARIN)

CLARIN-PL, Katedra Sztucznej Inteligencji Politechniki Wrocławskiej

Dr Beata Jarosz (UMCS)

Instytut Językoznawstwa i Literaturoznawstwa UMCS w Lublinie

Pod materiałem wideo publikujemy słownik pojęć z obszaru humanistyki cyfrowej opracowany przez dr Beatę Jarosz.



Anotacja – systematyczne oznaczanie słów, fragmentów tekstu lub całych dokumentów etykietami w celu skategoryzowania poszczególnych segmentów lub wprowadzenia dodatkowych informacji. Taki opis (wykonywany np. w aplikacji Inforex) ułatwia przeszukiwanie i analizę materiałów zgromadzonych w korpusie.

Analiza wydźwięku (inaczej: analiza sentymentu) – proces automatycznego określenia wydźwięku tekstu poprzez identyfikację elementów nacechowanych pozytywnie/negatywnie lub neutralnych. Metoda ta wykorzystywana jest nie tylko w badaniach naukowych, ale też w marketingu, ponieważ jest przydatna zarówno w identyfikacji emocjonalnego stanu autorów tekstu, jak i w monitorowaniu opinii klientów.

Analiza morfosyntaktyczna – proces analizowania struktury gramatycznej zdania poprzez opis poszczególnych wyrazów, tzn. identyfikowanie kategorii gramatycznych (takich, jak rodzaj, liczba, przypadek), oraz łączących je relacji syntaktycznych.

Stylometria – metoda analizy tekstu, która pozwala ustalać autorstwo lub chronologię tekstu na podstawie charakterystyki stylu pisania. Badania stylometryczne mogą być też wykorzystywane m.in. do wykrywania plagiatu czy identyfikowania różnic stylistycznych w tekstach różnych autorów. Narzędzia do automatycznej stylometrii (np. WebSty) pozwalają uzyskać informacje o statystykach wyrazów, ich bogactwie czy przynależności tematycznej, dzięki czemu możliwe jest określenie charakterystycznych cech opisujących i różnicujących.

(Data) preprocessing – przygotowanie danych wejściowych do formy najbardziej odpowiedniej dla algorytmów uczenia maszynowego. Obejmuje ono różne działania wykonywane przed analizą danych, w tym ich filtrację i przekształcenie, usunięcie z zestawu danych uszkodzonych, niekompletnych i nieprawidłowych.

Tagowanie morfosyntaktyczne – proces przypisywania do poszczególnych słów w tekście (lub szerzej – korpusie) znaczników (tagów) określających ich cechy gramatyczne, tzn. reprezentowaną część mowy, rodzaj, liczbę, przypadek itp. Działanie to stosuje się w przetwarzaniu języka naturalnego m.in. do analizy i zrozumienia struktury zdania, wykrywania relacji semantycznych oraz automatycznego tłumaczenia maszynowego.

Wordnet – baza danych leksykalno-semantycznych (funkcjonująca jako słownik relacyjny) obejmująca rzeczowniki, czasowniki, przymiotniki i przysłówki. Poszczególne jednostki leksykalne pogrupowane są w zbiory synonimów, tzw. synsetów, i powiązane siecią relacji semantycznych (typu hiponimia, meronimia), z których można wyczytać znaczenie wyrazów. Dane zawarte w wordnetach stanowią jeden z podstawowych zasobów wykorzystywanych do projektowania narzędzi do przetwarzania języka naturalnego.

ChronoPress – ogólnodostępny korpus dziedzinowy zawierający obecnie ok. 100 tys. fragmentów polskich komunikatów prasowych z lat 1945–1964. Dzięki opisaniu poszczególnych segmentów tekstowych za pomocą znaczników (tagów) możliwe jest generowanie statystyk, zestawień, charakterystyk podzbiorów i chronologicznej osi frekwencyjnej. Docelowo korpus ma obejmować teksty prasowe z lat 1918–2018.

OCR-owanie (ang. optical character recognition ‘optyczne rozpoznawanie znaków’) – proces przekształcania przy pomocy specjalnego oprogramowania zeskanowanego tekstu lub obrazu na dane tekstowe (wyrażone w postaci liter i znaków), które można następnie edytować, grupować i przetwarzać komputerowo.

Słowosieć (PlWordNet) – polski wordnet, tzn. relacyjny słownik semantyczny opracowywany w ośrodku CLARIN-PL. Jednostki leksykalne (czasowniki, rzeczowniki, przymiotniki i przysłówki) są grupowane w synsety i opisywane za pomocą sieci relacji semantycznych ustanawianych pomiędzy poszczególnymi hasłami. Obecnie Słowosieć zawiera 191 tys. słów, 285 tys. znaczeń oraz ponad 600 tys. relacji i jest największym wordnetem na świecie, który nieustannie się rozrasta.


O autorze

Piotr Witek

Administrator

Wyświetl wszystkie posty

Post navigation

Previous: Wycinanki (146)
Next: Wycinanki (147)

Related News

Ikonka Metadokument Zagłady
2 minutes read
  • Dyskusje
  • Filmy
  • Varia
  • Wywiady

Metadokument Zagłady: ekspozycja historyczna w Sobiborze

Piotr Witek 4 lutego 2026 0
miniatura
27 minutes read
  • Dyskusje
  • Wywiady

Otwarte zasoby językowe w praktyce badawczej. Rozmowa z dr. Marcinem Oleksym (Clarin-pl)

Piotr Witek 14 sierpnia 2025 0
vlcsnap-2025-07-18-00h37m37s790
1 minute read
  • Aktualności
  • Dyskusje
  • Wywiady

Rekonstrukcja historyczna w doświadczeniu historyka

Piotr Witek 18 lipca 2025 0

Nasze najnowsze teksty

238up
8 minutes read
  • Felietony
  • Varia

WOJCIECH WRZOSEK Wycinanki (238) Searl`a Chinese Room Argument (CRA)

Ewa Solska 24 marca 2026 0
fot dr Bartosz Kałużny
7 minutes read
  • Felietony
  • Varia

Mateusz Wyżga. Wycinanki staropolskie (6) Dziewczyna w studni

Ewa Solska 20 marca 2026 0
237up
7 minutes read
  • Felietony
  • Varia

WOJCIECH WRZOSEK Wycinanki (237) Co to jest strong artificial intelligence (SAI)

Ewa Solska 10 marca 2026 0
fot dr Bartosz Kałużny
12 minutes read
  • Felietony
  • Varia

Mateusz Wyżga. Wycinanki staropolskie (5) Frustracja Świętosława

Ewa Solska 6 marca 2026 0
  • O nas
  • Ohistorie
  • Kategorie
  • Kontakt
  • Współpraca
  • Archiwum Ohistorie
Copyright © All rights reserved. | MoreNews przez AF themes.