Kierownik projektu :
dr hab. Margaret Ohia-Nowak
Uniwersytet Marii Curie-Skłodowskiej w Lublinie

Panel: HS2

Konkurs : SONATA 20
ogłoszony 16 września 2024 r.

Pojawienie się pod koniec 2022 r. Chata GPT zrewolucjonizowało sposób tworzenia, przetwarzania i powielania treści cyfrowych. Szybko jednak okazało się, że dane, na których trenowane są generatywne modele AI, w tym duże modele językowe (LLM) odzwierciedlają stereotypy i uprzedzenia społeczne. Celem projektu jest zbadanie, w jakim stopniu dotyczy to także tekstów i obrazów generowanych przez polskojęzyczne duże modele językowe. Punktem wyjścia jest zatem pytanie: Co dzieje się, gdy algorytmy, ucząc się naszych nawyków językowych, powielają stereotypy i uprzedzenia? Przedmiotem badania są tzw. dyskursy urasawiające, czyli językowe i wizualne reprezentacje osób o różnych kolorach skóry, w szczególności osób niebiałych, które mogą wzmacniać rasizm.

dr hab. Margaret Ohia-Nowak, fot. Łukasz Beradr hab. Margaret Ohia-Nowak, fot. Łukasz Bera W Polsce tematy związane z różnorodnością kulturową, prawami kobiet i mową nienawiści często pojawiają się we współczesnej debacie publicznej, a sterotypy płciowe i rasowe wzmacniane są stale przez algorytmy i mają ogromny wpływ na zachowania społeczne. Wyraźnie pokazują to najnowsze badania. Mężczyźni przedstawiani są jako liderzy, a kobiety jako asystentki. Zjawisko nasila się w zautomatyzowanych systemach rekomendacji i chatbotach, w których decyzje zapadają przy minimalnym nadzorze człowieka: od tego, co zobaczymy w mediach społecznościowych, po ton i treść odpowiedzi udzielanych użytkownikom. Algorytmy mogą nieświadomie faworyzować jedne grupy i dyskryminować inne, zwłaszcza te narażone na wykluczenie i marginalizację.

Dotychczasowe badania modeli językowych AI dotyczą jednak głównie modeli anglojęzycznych i nie uwzględniają specyfiki języków słowiańskich ani polskiego kontekstu kulturowego. W językach innych niż angielski brakuje wysokiej jakości danych i narzędzi, co obniża skuteczność wykrywania mowy nienawiści i zwiększa stronniczość modeli. Powstają wprawdzie metody ograniczania uprzedzeń. Istnieją też nieliczne prace dotyczące modeli słowiańskojęzycznych. Wciąż jednak wiemy zbyt mało o tym, jak mechanizmy te działają w naszym kontekście językowym i kulturowym. Lukę tę wypełnia ten projekt. Realizacja badań poprowadzi do stworzenia metodologii, która ułatwi zapobieganie, ograniczanie, a może nawet całkowitą eliminację takich treści w interncie i w komunikacji publicznej.

dr hab. Margaret Ohia-Nowak, fot. Łukasz Beradr hab. Margaret Ohia-Nowak, fot. Łukasz Bera Jednym z podstawowych komponentów projektu jest analiza korpusu danych wygenerowanych przez duże modele językowe oraz zbadanie powielanych przez nie jawnych i ukrytych mechanizmów urasawiania. Ważnym elementem uzupełniającym analizy materiału językowo-wizualnego są rozmowy z ekspertkami i ekspertami badającymi i tworzącymi modele sztucznej inteligencji i duże modele językowe na rynek polski. Kolejnym istotnym etapem projektu są wywiady z różnorodnymi etnicznie użytkownikami i użytkowiczkami polskich LLM’ów. Szczególnie wartościowa jest perspektywa osób narażonych na rasizm w Polsce, czyli m.in. osób pochodzenia afrykańskiego, romskiego i azjatyckiego oraz tego, jak toksyczne treści AI wpływają na ich codzienne doświadczenia.

Wyniki badania korpusowego połączone zatem będą z analizą doświadczeń użytkowników i użytkowniczek języka. Te z kolei posłużą do opracowania narzędzia do testowania obecności uprzedzeń w polskich modelach językowych. Projekt umożliwi zmapowanie najczęstszych językowych i wizualnych dyskursów urasawiających w polskich LLM-ach. Jego efektem będzie także wypracowanie interdyscyplinarnej perspektywy łączącej lingwistykę krytyczną, socjolingwistykę oraz mediolingwistykę do zastosowania w badaniach nad algorytmami AI w polskich modelach językowych. Wesprze on tym samym tworzenie bardziej inkluzywnych i sprawiedliwych technologii cyfrowych.

Polskie modele AI mogą bowiem mówić językiem, który nie rani i nie wyklucza, a środowisko cyfrowe może być bardziej inkluzywne i bezpieczniejsze.

Pełny tytuł finansowanego projektu: Multimodalne dyskursy urasawiające w polskich dużych modelach językowych

dr hab. Margaret Ohia-Nowak

Kierownik - dodatkowe informacje

Adiunktka w Instytucie Nauk o Komunikacji Społecznej i Mediach Uniwersytetu Marii Curie-Skłodowskiej w Lublinie. Autorka książki Antyczarny rasizm. Język – dyskurs – komunikacja (2025). Była stypendystką Fulbrighta na Uniwersytecie Kalifornijskim w Berkeley. Odbyła staże naukowe na Uniwersytecie Amsterdamskim, City University w Londynie i Centre of Discourse Studies w Barcelonie. Wygłaszała wykłady gościnne m.in. na Stanford University, European Univeristy Institute we Florencji i Uniwersytecie Karola w Pradze. Laureatka międzynarodowej nagrody naukowej Emmy Goldman. Kierowniczka i wykonawczyni grantów krajowych i międzynarodowych, w tym finansowanych przez NCN, Komisję Europejską i ONZ.

dr hab. Margaret Ohia-Nowak, fot. Łukasz Bera