Monika Czerepowicka Uniwersytet Warmińsko-Mazurski w Olsztynie
TOPOSŁAW JAKO NARZĘDZIE ZNAKOWANIA JEDNOSTEK WIELOCZŁONOWYCH Celem artykułu jest próba przedstawienia polskiemu czytelnikowi narzędzia elektronicznego (programu komputerowego) do opisu jednostek wieloczłonowych o nazwie Toposław. Jako jednostki wieloczłonowe traktuje się połączenia składające się przynajmniej z dwu form wyrazowych, których znaczenie nie wynika wprost z sumy znaczeń składników. Za Kosek przyjmujemy, że główne kryterium wyodrębnienia tego typu jednostek stanowi pojęcie klasy zamkniętej, do której należy przynajmniej jeden ze składników połączenia (Kosek 2008: 48). Jednostki tego typu nazywane są także frazeologizmami, idiomami, frazemami. Zaliczymy do nich również wielosegmentowe nazwy własne, terminy i wyrażenia specjalistyczne. Jednostki języka polskiego zakodowane w Toposławie w pierwszej kolejności zaczerpnięte zostały z pracy Iwony Kosek (Kosek 2008)1. Multiflex a Toposław Multiflex jest formalnym systemem opisu języków naturalnych powstałym na gruncie francuskim, z powodzeniem używanym od niemal 20 lat. Zastosowano go już do opisu wyrażeń frazeologicznych języka francuskiego, portugalskiego, angielskiego, niemieckiego. Pomyślne próby przeprowadzono także dla jednego z języków słowiańskich, a mianowicie – serbskiego (por. Savary 2009:1). Można przypuszczać, że powodzenie tego przedsięwzięcia
1
Toposław jest programem aktualnie wykorzystywanym na potrzeby projektu badawczego pt. „Adapta-
cyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych”, prowadzonego przez Instytut Podstaw Informatyki Polskiej Akademii Nauk oraz Politechnikę Wrocławską. Projekt ten wpisuje się w rozwój narzędzi elektronicznych w Polsce, jest odpowiedzią na konkurs ogłoszony w ramach Programu Operacyjnego „Innowacyjna gospodarka 2007–2013”. W dużej mierze jest finansowany przez Unię Europejską (więcej na stronie internetowej projektu: http://www.ipipan.waw.pl/nekst/). W ramach grantu planuje się stworzenie opisu elektronicznego 20 tys. jednostek należących do języka specjalistycznego ekonomii oraz 5 tys. wyrażeń języka ogólnego. Autorka niniejszego tekstu pracuje nad drugim z wymienionych zadań. 1
przyczyniło się do zastosowania go do polszczyzny. Formalizm ten jest częścią obszernego wielofunkcyjnego systemu Unitex, służącego do przetwarzania wielojęzycznych korpusów tekstów. Poza Multifleksem Unitex dysponuje także edytorem grafów (zdających sprawę z relacji morfologicznych między składnikami opisywanych wyrażeń), modułem morfologicznym do odmiany pojedynczych słów, modułem do analizy morfologicznej tekstów. Sam Multiflex składa się z dwu części. Pierwsza współpracuje z modułem morfologicznym Unitexa. Jednak, by efektywnie przetwarzać poszczególne wyrazy, konieczne jest współdziałanie z programem odmieniającym wyrazy polskie. W Multifleksie wykorzystano analizator morfologiczny Morfeusz. Jest to program komputerowy oparty na słowniku fleksyjnym, mającym postać bazy danych. Jego autorem jest Marcin Woliński, natomiast autorem bazy danych – Zygmunt Saloni. Natomiast druga część Multifleksa ma charakter uniwersalny, niezależny od sposobu opisu poszczególnych członów. Umożliwia ona generowanie form wieloczłonowych na podstawie grafów. Multiflex z polskim modułem fleksyjnym został po raz pierwszy wykorzystany na potrzeby projektu, którego celem był opis wieloczłonowych jednostek topograficznych Warszawy (projekt LUNA; więcej na: http://www.ist-luna.eu/; dostęp 16.08.2010). Potrzebny był jednak program, który „spinałby” Multifleksa, Morfeusza, unitexowy edytor grafów oraz system bazy danych przetwarzanych jednostek. Tym programem jest Toposław, który pozwala na sprawne korzystanie z czterech wymienionych programów na raz, a zarazem wnosi nowe funkcje, jak m.in. filtrowanie grafów, podświetlanie ścieżek, używanie hierarchii pojęć. Autorem Toposława jest Piotr Sikora. Etapy i możliwości opisu morfosyntaktycznego Toposław umożliwia opis jednostek na trzech poziomach – zdaje sprawę z wariantywności ortograficznej połączeń (np. hocki klocki i hocki-klocki), identyfikuje jednostkę pod względem fleksyjnym oraz składniowym. Opis całościowy jest wielostopniową procedurą, którą pokrótce postaramy się przedstawić poniżej. Pierwszym krokiem jest segmentacja, czyli wyodrębnienie poszczególnych elementów wyrażenia. W opisie maszynowym, jak i leksykograficznym, jest to sprawa kluczowa, od niej bowiem zależy ilość oraz jakość opisywanych jednostek. Na potrzeby opisu formalnego zwykle przyjmuje się, że jednostkami tymi są ciągi liter między odstępami lub znakami interpunkcyjnymi. Nie inaczej zdecydowano również w tym wypadku. W Toposławie ciągi liter (słowa) oraz ich separatory (spacja, znaki interpunkcyjne) traktuje się równorzędnie. W konsekwencji słowa i separatory tekstu otrzymują interpretację. By zilustrować problem 2
posłużymy się przykładem. Weźmy wyrażenie adwokat diabła. Czynnikiem, który sprawia, że mamy do czynienia z dwoma formami wyrazowymi, jest występująca pomiędzy nimi spacja. Wyrażenie składa się więc z trzech segmentów: 1. adwokat, 2. odstęp międzywyrazowy, 3. diabła. Każdy z nich otrzymuje stosowną interpretację. W wypadku drugiego segmentu to „interpunkcja”. W wypadku członów pierwszego i trzeciego opis jest złożony. Słowo (ciąg liter między separatorami tekstu) jest interpretowane jako forma wyrazowa określonego leksemu (w terminologii Toposława to lemat) z przypisaną charakterystyką morfologiczną, którą Toposław nazywa tagiem. Zestaw do znakowania morfosyntaktycznego (tagowania) wykorzystywany przez Toposława sprawdził się w pracach nad Narodowym Korpusem Języka Polskiego. Obejmuje on 35 klas gramatycznych, wśród których znajdują się zarówno tradycyjne, m.in. rzeczownik, czasownik, przymiotnik, liczebnik, jak i wyróżnione specjalnie na potrzeby opisu formalnego korpusu, np. burkinostka, kublik, deprecjant, znak interpunkcyjny (szczegółowy opis zestawu znaczników morfosyntaktycznych znajduje się w Przepiórkowski 2009). Klasy te są charakteryzowane na podstawie12 kategorii gramatycznych, jak np. przypadek, liczba, rodzaj, osoba oraz jak aglutynacja, stopień, aspekt, poprzyimkowość, akcentowość, uzgodnienie. Przyjmują one łącznie 38 wartości. Podczas anotacji morfologicznej kluczową rolę odgrywa analizator morfologiczny, który dla każdego słowa podpowiada formę podstawową oraz wszystkie możliwości interpretacyjne, a może być ich wiele – dla przymiotników nawet kilkanaście możliwości, dla imiesłowów przymiotnikowych czasowników dwuaspektowych będzie ich dwukrotnie więcej. Analizator wykrywa wszelką homonimię, zarówno wewnętrzną (na poziomie form tego samego leksemu), jak i zewnętrzną (na przecięciu kilku leksemów), jak w wypadku formy znajomi w wyrażeniu krewni i znajomi królika, por.:
Ilustracja 1. Opis fleksyjny wyrażenia krewni i znajomi królika.
3
Twórca opisu wybiera spośród wielu właściwą interpretację. Każda forma wyrazowa otrzymuje opis wg parametrów określonych dla danej klasy gramatycznej. Np. dla rzeczownika jest to liczba, przypadek, rodzaj, dla przymiotnika – liczba, przypadek, rodzaj, stopień, dla imiesłowu przymiotnikowego – liczba, przypadek, rodzaj, aspekt. Na tym etapie zaznacza się również odmienność członów połączenia, przy czym rozumie się ją funkcjonalnie jako występowanie w różnych pozycjach w zdaniu (pozycję w tabeli Odmienny należy odczytywać jako skrót myślowy; por. Bańko 2004). W wyrażeniu biały kruk segmenty nieparzyste połączone zgodą gramatyczną zachowują pełny paradygmat odmiany: biały kruk, białego kruka itd. W połączeniu adwokat diabła, opartym na związku rządu, tylko pierwszy człon może pełnić różne funkcje w zdaniu, trzeci, będący podrzędnikiem, zachowuje swą formę bez względu na pozycję składniową, np. Z niego jest istny adwokat diabła. Nie bądź adwokatem diabła. Po wyborze właściwego leksemu oraz charakterystyki morfologicznej przechodzimy do kolejnego etapu – opisu formalnego za pomocą grafów. Każdy z nich składa się z początku (wejścia), pudełek odpowiadających poszczególnym członom wyrażenia oraz zakończenia (wyjścia). W pudełkach (zbudowanych wg schematu: jeden człon = jedno pudełko) za pomocą równań zapisuje się informacje o poszczególnych składnikach wyrażeń oraz ich wzajemnych relacjach. Zaznaczenie na etapie morfologicznym odmienności członu nie przesądza jeszcze sprawy. W grafie zapisuje się, które parametry są faktycznie odmienne. Na przykład w połączeniach angielska flegma, areszt domowy rzeczownik nie korzysta z systemowej możliwości i pozostaje nieodmienny przez liczbę, por.2:
Ilustracja 2. Graf wyrażenia areszt domowy.
2
Informacje w grafie należy odczytywać następująco: Case=$c odmienne przez przypadek;
Gen=$1.Gen
wartość rodzaju wyrażenia równa jest wartości rodzaju pierwszego segmentu; Nb=$1.Nb war-
tość liczby wyrażenia jest równa wartości tego parametru dla pierwszego segmentu. 4
Równanie końcowe na wyjściu (edytowane w nawiasach ostrokątnych tłustym drukiem) jest swoistym kodem wyrażenia. Przypisanie grafu do wyrażenia jest warunkiem koniecznym opisu, bez niego nie otrzymamy listy wszystkich możliwych form wyrażenia. Każde wyrażenia posiada graf, co wcale nie znaczy, że każde wyrażenia musi mieć swój niepowtarzalny zestaw pudełek. Graf zazwyczaj opisuje całe grupy wyrażeń. I tak okazuje się, że w badanej próbie najczęstszym (blisko 700 połączeń, co stanowi 1/3 aktualnie zakodowanych) jest graf opisujący wyrażenie składające się z przymiotnika oraz nadrzędnego rzeczownika, przy zachowaniu pełnego zestawu form obu członów, np.:
Ilustracja 3. Graf grupy wyrażeń typu agencja towarzyska.
Pomiędzy członami wyrażenia mogą zachodzić różnego typu relacje. W przywoływanym już połączeniu adwokat diabła człon diabła pozostaje niezmienny przy jednoczesnej zmienności form członu adwokat (to kolejna systemowa zależność, taki sam sposób relacji zachodzi w około 200 wyrażeniach). Według schematu rzeczownik + rzeczownik w dopełniaczu są również zbudowane wyrażenia budka suflera czy dawca obrączki, jednak nie można przypisać ich do grafu wyrażenia adwokat diabła. Na ich potrzeby należy utworzyć nowy, bowiem człon rzeczownikowy w dopełniaczu odmienia się przez liczbę, np.: dawca obrączki, dawcę obrączki, ale: dawcy obrączek, dawców obrączek. Informacja o odmienności członu jest zapisywana w jego pudełku. Jeśli natomiast człon pozostaje niezmienny, w jego pudełku widnieje jego numer poprzedzony symbolem zmiennej ($), por. grafy:
Ilustracja 4. Graf do wyrażeń typu adwokat diabła.
5
Ilustracja 5. Graf do wyrażeń typu budka suflera.
W Toposławie możliwe jest hasłowanie według form najczęstszych bez wyłączenia pozostałych. Dotyczy to wyrażeń występujących częściej w liczbie mnogiej, dla których możliwe są, choć ze znacznie niższą frekwencję w tekstach, także form liczby pojedynczej, takim jest na przykład wyrażenie bańki mydlane. Dla tego typu połączeń hasłową jest forma liczby mnogiej, natomiast w grafie zaznacza się odmianę przez liczbę:
Ilustracja 6. Graf dla wyrażeń typu bańki mydlane.
W konsekwencji daje to pełny zestaw form:
Ilustracja 7. Lista form wyrażenia bańki mydlane.
6
Grafy dają również możliwość zapisania informacji o zmianie kolejności członów. Faktycznie wyrażenie, w którym zachodzi zmiana szyku, jak np. automatyczna sekretarka – sekretarka automatyczna, brat cioteczny – cioteczny brat, otrzymuje na wyjściu dwie ścieżki, np.:
Ilustracja 8. Graf do wyrażeń ze zmiennym szykiem.
Toposław – perspektywy Podsumowując, Toposław wydaje się udanym narzędziem do opisu polskich jednostek wieloczłonowych. Charakteryzuje się przyjaznym interfejsem, wygodnym, choć formalnym i niebanalnym, edytorem grafów. Stosunkowo szybko można nauczyć się nim posługiwać. Oczywiście, nie jest to narzędzie idealne. W tym momencie nie umożliwia opisu jednostek z członem wymiennym, np. prawa ręka kogoś. Program w aktualnym kształcie pozwala na kodowanie jednostek rzeczownikowych. Planowane jest udoskonalenie Toposława (m. in. w oparciu o doświadczenia w prowadzonych badań), w wyniku którego możliwe będzie wprowadzenie wielosegmentowych czasowników, przymiotników, a także jednostek nieodmiennych, jak przysłówki i przyimki złożone. Na zakończenie należy zaznaczyć, że prowadzone badania mają charakter innowacyjny z dwu powodów. To pierwsza na gruncie polskim implementacja formalizmu Multiflex. Po drugie dlatego, że to pierwsza próba stworzenia opisu elektronicznego połączeń wyrazowych z wykorzystaniem narzędzi do automatycznego przetwarzania tekstu (Morfeusz, Unitex, Multiflex). Umowny zbiór pięciu tysięcy jednostek wydaje się już próbą reprezentatywną do podjęcia dalszych badań, stanowić może swoisty podkorpus frazeologiczny języka polskiego. Wyniki prowadzonych prac leksykograficznych wykorzystywane są również w polskiej wersji Wordnetu (polska nazwa: Słowosieć) – lingwistycznej sieci semantycznych relacji leksykalnych. Ta jednak nie posługuje się z formatem opisu Multiflex, lecz własnym (więcej na stronie projektu: http://www.plwordnet.pwr.wroc.pl/main/?lang=pl, dostęp 16.12.2010). 7
Na tym etapie trudno przesądzać o powodzeniu polskich badań w oparciu o Multiflex z wykorzystaniem Toposława, ale można zakładać, że przyczynią się one do stworzenia programów komputerowych rozpoznających w tekstach jednostki wieloczłonowe (również ich warianty). W metodach automatycznych przetwarzania polszczyzny mogą dostarczyć narzędzi do zmniejszenia stopnia wieloznaczności wypowiedzeń. W oczywisty sposób przyczynią się do uzyskania początkowego zbioru terminów i wyrażeń, co pozostaje nie bez znaczenia w pracach nad systemami wydobywającymi wzorce oraz systemami uczącymi się. Wydaje się, że wpłyną także na wypracowanie wzorca opisu rygorystycznego (formalnego) polskich jednostek wielosegmentowych. Bibliografia Książki: Bańko M., 2004, Wykłady z polskiej fleksji. Warszawa. Kosek I., 2008, Fleksja i składnia nieciągłych imiennych jednostek leksykalnych. Olsztyn. Przepiórkowski A., 2004, Korpus IPI PAN. Wersja wstępna / The IPI PAN Corpus: Preliminary version, IPI PAN, Warszawa. (Publikacja dwujęzyczna, w sumie 180 stron. Artykuły w wydawnictwach pod redakcją: Savary A., Rabiega-Wiśniewska J. & Woliński M., 2009, Inflection of Polish Multi-Word Proper Names with Morfeusz and Multiflex, Lecture Notes in Artificial Intelligence, 5070. Przepiórkowski A., 2006, The Potential of the IPI PAN Corpus, [w:]: Poznań Studies in Contemporary Linguistics, Vol. 41, s. 31-48. Woliński M., 2006, Morfeusz – a Practical Tool for the Morphological Analysis of Polish [w:] Proceedings of IIS:IIPWM`06, s. 503–512. Woliński M., Savary A., Sikora P., Marciniak M. (2009), Usability improvements in the lexicographic framework Toposław, [w:] Proceedings of the Language Technology Conference'09, Poznań, s. 321-325. Sikora P., Woliński M., 2009, Toposław — a Dictionary Creation Tool, Recent Advances in Intelligent Information Systems (Proceedings of the Balto-Slavonic Natural Language Processing Workshop, Kraków), Warsaw. Artykuły w czasopismach: Derwojedowa M., Rudolf M., 2003, Czy Burkina to dziewczyna i co o tym sądzą ich królewskie mości, czyli o jednostkach leksykalnych pewnego typu, „Poradnik Językowy”, z. 5, s. 39– 49. 8
Artykuły w wydawnictwie elektronicznym: Przepiórkowski A., 2009, Zasady znakowania morfosyntaktycznego w NKJP – wydruk komputerowy (wersja z 12.07.2009), ss. 27. Savary A., 2009, Multifex: a Multilingual Tool for Describing the Morphosyntax of MultiWord Units – wydruk komputerowy, ss. 22; złożony do „Linguisticae Investigationes”. Savary A., Graliński F., Czerepowicka M., Makowiecki F., 2010, Computational Lexicography of Multi-Word Units: How Effiecient Can It Be? – wydruk komputerowy, ss. 9; przyjęty na Proceeding of Multi-Word Units: from Theory to Applications (MWE'10), Workshop at the International Conference on Computational Linguistics (COLING'10), Pekin, Chiny, 28 sierpnia.
Adres elektroniczny autorki: czerepowicka@gmail.com monika.czerepowicka@uwm.edu.pl
9