Nowoczesne technologie w humanistyce. Cz. 2. Możliwości, ograniczenia, zagrożenia

Portal ohistorie.eu zaprasza do obejrzenia i wysłuchania rozmowy:

Nowoczesne technologie w humanistyce

| Część  II |

Możliwości, ograniczenia, zagrożenia

Rozmowa koncentruje się na zagadnieniach związanych z projektowaniem i realizacją badań z wykorzystaniem nowoczesnej infrastruktury. Omówione zostają zarówno możliwości i perspektywy, jak i ograniczenia oraz zagrożenia, z którymi mogą się zetknąć humaniści (i nie tylko) chcący wykorzystać w praktyce badawczej wyspecjalizowane narzędzia cyfrowe. Podczas dyskusji zostało podjętych kilka wątków, m.in.: Czy prowadzenie badań z użyciem nowych technologii to nauka czy może efekciarstwo dla leniwych? Czy humanista wykorzystujący nowe technologie to świadomy naukowiec czy raczej rzemieślnik i operator narzędzi? Na ile nowoczesna infrastruktura badawcza wspomaga humanistów w ich badaniach, a na ile ich wyręcza? Jaki wpływ na projektowanie i realizację badań ma rozwój technologii? Charakterystyce dyskutowanych problemów, wśród których pojawia się także kwestia aplikowania o granty i polityka otwartości danych, towarzyszą liczne odwołania do konkretnych przykładów wykorzystania nowoczesnej infrastruktury w praktyce badawczej.

W rozmowie biorą udział eksperci:

Dr Jan Wieczorek (CLARIN)

CLARIN-PL, Katedra Sztucznej Inteligencji Politechniki Wrocławskiej

Dr Beata Jarosz (UMCS)

Instytut Językoznawstwa i Literaturoznawstwa UMCS w Lublinie

Pod materiałem wideo publikujemy słownik pojęć z obszaru humanistyki cyfrowej opracowany przez dr Beatę Jarosz (konsultacja merytoryczna: dr Jan Wieczorek).

Distant reading – metoda analizy dużych zbiorów tekstów literackich przy użyciu nowoczesnej infrastruktury, w tym narzędzi opartych na automatycznym przetwarzaniu języka naturalnego. Twórca termin i założeń teoretycznych – Franco Moretti (Conjectures on World Literature, „New Left Review” 2000).

Analiza topikowa (ang. topic modeling; inaczej: analiza tematyczna) – automatyczne identyfikowanie tematów występujących zarówno w pojedynczym tekście, jak i w ogromnym korpusie. Jedną z technik wykorzystywanych w tym celu jest LDA (Latent Dirichlet Allocation ‘ukryta alokacja Dirichleta’), która polega na identyfikacji tematów w zbiorze tekstów na podstawie analizy częstości współwystępowania słów i ich wzajemnych relacji.

Stylometria – metoda analizy tekstu, która pozwala ustalać autorstwo lub chronologię tekstu na podstawie charakterystyki gramatycznego stylu pisania. Badania stylometryczne mogą być też wykorzystywane m.in. do wykrywania plagiatu czy identyfikowania różnic stylistycznych w tekstach różnych autorów. Narzędzia do automatycznej stylometrii (np. WebSty) pozwalają uzyskać informacje o statystykach wyrazów, ich bogactwie czy przynależności tematycznej, dzięki czemu możliwe jest określenie charakterystycznych cech opisujących i różnicujących.

Anotacja – systematyczne oznaczanie słów, fragmentów tekstu lub całych dokumentów etykietami w celu skategoryzowania poszczególnych segmentów lub wprowadzenia dodatkowych informacji. Taki opis (wykonywany np. w aplikacji Inforex) ułatwia przeszukiwanie i analizę materiałów zgromadzonych w korpusie.

Model transformatywno-generatywny – model stosowany w uczeniu maszynowym (tzn. w programowaniu komputerowym), który (1) dokonuje przetwarzania tekstów oraz innych typów danych i (2) służy do generowania tekstu lub innych zasobów na podstawie przetworzonych danych wejściowych. MTG ma zastosowanie m.in. w tłumaczeniu maszynowym, automatycznym streszczaniu tekstów lub w tworzeniu chatbotów.

Halucynacje – zjawisko generowania przez sztuczną inteligencję danych i wyobrażeń, które nie są zgodne z rzeczywistością albo nie mają odpowiedniego odniesienia do danych wejściowych. Halucynacje mogą obejmować m.in. generowanie tekstu zawierającego nieprawdziwe informacje lub nielogiczne wnioski albo obrazów przedstawiających nieistniejące obiekty lub sceny.

OCR-owanie (ang. optical character recognition ‘optyczne rozpoznawanie znaków’) – proces przekształcania przy pomocy specjalnego oprogramowania zeskanowanego tekstu lub obrazu na dane tekstowe (wyrażone w postaci liter i znaków), które można następnie edytować, grupować i przetwarzać komputerowo.

Język CQL (Corpus Query Language ‘język zapytań korpusowych’)– specjalny język zapytań wykorzystywany w lingwistyce korpusowej i w innych dziedzinach zajmujących się przetwarzaniem języka naturalnego. Umożliwia (np. w programie Sketch Engine) wyszukiwanie w korpusie złożonych wzorców gramatycznych lub leksykalnych (przydatnych w analizie składniowej i semantycznej) oraz formułowanie złożonych zapytań (np. statystycznych) z uwzględnieniem kryteriów wyszukiwania, których nie można ustawić przy użyciu standardowego interfejsu użytkownika.




Nowoczesne technologie w humanistyce (Część I)

| Część  I | CLARIN-PL i jego narzędzia w praktyce badawczej

Portal ohistorie.eu zaprasza do obejrzenia i wysłuchania rozmowy:

Nowoczesne technologie w humanistyce

| Część  I |

CLARIN-PL i jego narzędzia w praktyce badawczej

Dyskusja jest poświęcona wyzwaniom, korzyściom oraz zagrożeniom, jakie są związane z wykorzystaniem nowoczesnych technologii w badaniach humanistycznych. Rozmowa koncentruje się na omówieniu potencjału elektronicznej infrastruktury badawczej opracowywanej dla naukowców w konsorcjum CLARIN-PL. Przybliżone zostały zaawansowane narzędzia oparte na technologii przetwarzania języka naturalnego, które mogą wspomagać nie tylko humanistów (językoznawców, literaturoznawców, historyków itd.), ale też przedstawicieli innych dyscyplin naukowych (np. ekonomistów, prawników, medyków) w realizacji rozmaitych projektów. Charakterystyce towarzyszą liczne odwołania do konkretnych przykładów wykorzystania nowoczesnej infrastruktury w praktyce badawczej.

W rozmowie biorą udział eksperci:

Dr Jan Wieczorek (CLARIN)

CLARIN-PL, Katedra Sztucznej Inteligencji Politechniki Wrocławskiej

Dr Beata Jarosz (UMCS)

Instytut Językoznawstwa i Literaturoznawstwa UMCS w Lublinie

Pod materiałem wideo publikujemy słownik pojęć z obszaru humanistyki cyfrowej opracowany przez dr Beatę Jarosz.



Anotacja – systematyczne oznaczanie słów, fragmentów tekstu lub całych dokumentów etykietami w celu skategoryzowania poszczególnych segmentów lub wprowadzenia dodatkowych informacji. Taki opis (wykonywany np. w aplikacji Inforex) ułatwia przeszukiwanie i analizę materiałów zgromadzonych w korpusie.

Analiza wydźwięku (inaczej: analiza sentymentu) – proces automatycznego określenia wydźwięku tekstu poprzez identyfikację elementów nacechowanych pozytywnie/negatywnie lub neutralnych. Metoda ta wykorzystywana jest nie tylko w badaniach naukowych, ale też w marketingu, ponieważ jest przydatna zarówno w identyfikacji emocjonalnego stanu autorów tekstu, jak i w monitorowaniu opinii klientów.

Analiza morfosyntaktyczna – proces analizowania struktury gramatycznej zdania poprzez opis poszczególnych wyrazów, tzn. identyfikowanie kategorii gramatycznych (takich, jak rodzaj, liczba, przypadek), oraz łączących je relacji syntaktycznych.

Stylometria – metoda analizy tekstu, która pozwala ustalać autorstwo lub chronologię tekstu na podstawie charakterystyki stylu pisania. Badania stylometryczne mogą być też wykorzystywane m.in. do wykrywania plagiatu czy identyfikowania różnic stylistycznych w tekstach różnych autorów. Narzędzia do automatycznej stylometrii (np. WebSty) pozwalają uzyskać informacje o statystykach wyrazów, ich bogactwie czy przynależności tematycznej, dzięki czemu możliwe jest określenie charakterystycznych cech opisujących i różnicujących.

(Data) preprocessing – przygotowanie danych wejściowych do formy najbardziej odpowiedniej dla algorytmów uczenia maszynowego. Obejmuje ono różne działania wykonywane przed analizą danych, w tym ich filtrację i przekształcenie, usunięcie z zestawu danych uszkodzonych, niekompletnych i nieprawidłowych.

Tagowanie morfosyntaktyczne – proces przypisywania do poszczególnych słów w tekście (lub szerzej – korpusie) znaczników (tagów) określających ich cechy gramatyczne, tzn. reprezentowaną część mowy, rodzaj, liczbę, przypadek itp. Działanie to stosuje się w przetwarzaniu języka naturalnego m.in. do analizy i zrozumienia struktury zdania, wykrywania relacji semantycznych oraz automatycznego tłumaczenia maszynowego.

Wordnet – baza danych leksykalno-semantycznych (funkcjonująca jako słownik relacyjny) obejmująca rzeczowniki, czasowniki, przymiotniki i przysłówki. Poszczególne jednostki leksykalne pogrupowane są w zbiory synonimów, tzw. synsetów, i powiązane siecią relacji semantycznych (typu hiponimia, meronimia), z których można wyczytać znaczenie wyrazów. Dane zawarte w wordnetach stanowią jeden z podstawowych zasobów wykorzystywanych do projektowania narzędzi do przetwarzania języka naturalnego.

ChronoPress – ogólnodostępny korpus dziedzinowy zawierający obecnie ok. 100 tys. fragmentów polskich komunikatów prasowych z lat 1945–1964. Dzięki opisaniu poszczególnych segmentów tekstowych za pomocą znaczników (tagów) możliwe jest generowanie statystyk, zestawień, charakterystyk podzbiorów i chronologicznej osi frekwencyjnej. Docelowo korpus ma obejmować teksty prasowe z lat 1918–2018.

OCR-owanie (ang. optical character recognition ‘optyczne rozpoznawanie znaków’) – proces przekształcania przy pomocy specjalnego oprogramowania zeskanowanego tekstu lub obrazu na dane tekstowe (wyrażone w postaci liter i znaków), które można następnie edytować, grupować i przetwarzać komputerowo.

Słowosieć (PlWordNet) – polski wordnet, tzn. relacyjny słownik semantyczny opracowywany w ośrodku CLARIN-PL. Jednostki leksykalne (czasowniki, rzeczowniki, przymiotniki i przysłówki) są grupowane w synsety i opisywane za pomocą sieci relacji semantycznych ustanawianych pomiędzy poszczególnymi hasłami. Obecnie Słowosieć zawiera 191 tys. słów, 285 tys. znaczeń oraz ponad 600 tys. relacji i jest największym wordnetem na świecie, który nieustannie się rozrasta.





CZY HISTORIA POTRZEBUJE TEORII? – debata

Katedra Humanistyki Cyfrowej i Metodologii Historii UMCS

Centrum Badawczo-Rozwojowe E-Humanistyka UMCS

Wydział Historii i Archeologii UMCS

Towarzystwo Historiograficzne

Ośrodek Brama Grodzka Teatr NN

zapraszają na dyskusję

CZY HISTORIA POTRZEBUJE TEORII?

Wokół „Wprowadzenia do Metodologii Historii” (red. Ewa Domańska i Jan Pomorski, PWN, Warszawa 2022)



Debata odbyła się 26 stycznia 2023 roku

o godz. 17.30

w Sali Czarnej Ośrodka Brama Grodzka Teatr NN,

ul. Grodzka 21 w Lublinie 


Ze wstępu:

Wprowadzenie do metodologii historii jest pierwszym od lat na polskim rynku wydawniczym podręcznikiem akademickim, adresowanym do studentów historii i pokrewnych kierunków studiów humanistycznych, którzy zainteresowani są problematyką teorii i metodologii historii oraz nowymi tendencjami w badaniach historycznych i sposobami ich uprawiania. Zadaniem podręcznika jest przystępne zaprezentowanie wybranych zagadnień związanych z metodologicznymi aspektami wiedzy historycznej. Ma on przede wszystkim pokazać w praktyce, jak ważną rolę odgrywa refleksja metodologiczna w rozumieniu historii jako dziedziny wiedzy i w realizowaniu jej społecznych funkcji oraz jak nieodzowna jest pomoc metodologii w zapewnieniu historii statusu wiedzy naukowej, prowadzeniu profesjonalnych badań oraz pisaniu logicznie skonstruowanych i krytycznych tekstów akademickich” (s. 9).


Jak współcześnie rozumieć i praktykować historię? Czym jest metodologia historii i co jest jej przedmiotem badania? Czy istnieje jedna metodologia historii czy jest ich wiele? Czy można uprawiać naukę historyczną bez naukowej metodologii? Po co historykom metodologia? Dlaczego metodologia jest niezbędna w naukowej refleksji i pracy badawczej historyka?

W dyskusji udział biorą:

Prof. Ewa Domańska, Uniwersytet im. Adama Mickiewicza

Prof. Jan Pomorski, Uniwersytet Marii Curie-Skłodowskiej  

Prof. Barbara Klich Kluczewska, Uniwersytet Jagielloński

Prof. Hubert Łaszkiewicz, Uniwersytet Warszawski

Patronat medialny portal ohistorie.eu

Pomysł debaty, realizacja wideo i podcastu:

Dr hab. Piotr Witek, prof. UMCS




Spotkanie wokół książki Anny Wylegały „Był dwór, nie ma dworu. Reforma rolna w Polsce”




Komunistyczne pomniki w przestrzeni publicznej. Dylematy trudnego dziedzictwa

Spot audycji

Portal o historie.eu zaprasza do obejrzenia i wysłuchania debaty:

Komunistyczne pomniki w przestrzeni publicznej

Dylematy trudnego dziedzictwa

W sierpniu 2022 roku na jednym z portali PAP opublikowano wypowiedź dra Karola Nawrockiego, w której prezes IPN stwierdził:

W ciągu ostatnich trzech miesięcy usunęliśmy 20 sowieckich pomników, ale na naszej liście jest ich 60. To bardzo szybkie tempo, ale chciałbym być tym prezesem IPN, który dokończy proces dekomunizacji w Polsce.

W spotach publikowanych w Internecie prezes IPN nawołuje do usuwania pomników powstałych w czasach Polski Ludowej. W wielu miejscowościach odbywa się demontaż monumentów.

Czy podobny los spotka pomnik Wyzwolenia Ziemi Warmińskiej i Mazurskiej w Olsztynie autorstwa Xawerego Dunikowskiego?

O olsztyńskim monumencie Nawrocki mówi następująco:

Pomnik ten jest przede wszystkim ahistoryczny, bo dotyka wydarzenia, którego nie było. Rok ’45 nie był wyzwoleniem. Pomnik ten nie powinien stać w przestrzeni wolnego, pięknego polskiego miasta (…) dlatego, że jest pomnikiem oddającym cześć i honor tym, którzy mordowali, którzy gwałcili, którzy palili. […] Instytut Pamięci Narodowej będzie w zdecydowany sposób dążył do tego, aby ten pomnik z przestrzeni publicznej wolnego miasta Olszyna zniknął.


Relacja video z dyskusji

W obronie olsztyńskiego pomnika stanął historyk i kulturoznawca prof. Robert Traba, który w liście otwartym do dra Karola Nawrockiego wyłuszczył i poddał krytyce błędy w argumentacji prezesa IPN. List został opublikowany na łamach portalu ohistorie.eu 

Konflikt wokół Pomnika Wyzwolenia Ziemi Warmińskiej i Mazurskiej autorstwa Xawerego Dunikowskiego w Olsztynie jest pretekstem do rozmowy o tym: (1) czym są i jakie funkcje pełnią pomniki w przestrzeni publicznej: (2) co rozumiemy pod pojęciem trudnego dziedzictwa, oraz (3) na czym powinien polegać proces dekomunizacji przestrzeni publicznej w przypadku uznanych dzieł sztuki.

W dyskusji biorą udział:

Prof. Robert Traba, ISP PAN

Prof. Tadeusz J. Żuchowski, IHS UAM

Prof. Jacek Friedrich, Muzeum Narodowe w Gdańsku

Rozmowę poprowadzi:

Prof. Anna Ziębińska-Witek, Katedra Humanistyki Cyfrowej i Metodologii Historii UMCS w Lublinie

Debata odbyła się w środę 16 listopada 2022 r. o godz. 17.00.


Pomysł dyskusji dr hab. Piotr Witek, prof. UMCS





Rozmowa wokół książki Jędrzeja Piekary „Polskie wątki w życiu Michaiła Hellera”




Spotkanie wokół książki Joanny Ostrowskiej „Oni. Homoseksualiści w czasie II wojny światowej”




Spotkanie wokół książki prof. Andrzeja Friszke pt. „Zawód: historyk”




Czerwono-biało-czerwona Łódź



Debata wokół książki Andrzeja Czyżewskiego

Czerwono-biało-czerwona Łódź. Lokalne wymiary polityki pamięci historycznej w PRL, Łódź-Warszawa 2021

Uczestnicy: dr
Andrzej Czyżewski (UŁ), prof. dr hab. Piotr. T. Kwiatkowski

Prowadzenie: dr hab.
Mariusz Mazur, prof. UMCS