ISBN 978-961-237-610-9
KORPU Učbenik Korpusna analiza je oblikovan predvsem za študente Medjezikovnega posredovanja na Oddelku za prevajalstvo FF UL. Študentje se ob njem seznanijo s pomenom in temeljnimi pojmi korpusnega jezikoslovja, usvojijo osnove korpusne analize, nato pa se usposobijo za samostojno delo s korpusi – enojezičnimi in vzporednimi. Naučijo se uporabljati orodja za delo s korpusi in graditi korpuse za svoje lastne raziskave. Ker so v učbeniku celostno predstavljena orodja za korpusno analizo z vrsto praktičnih vaj, je lahko dobrodošel tudi študentom vseh drugih študijskih programov, pri katerih se študentje srečujejo s korpusnimi vsebinami.
Vojko Gorjanc
Darja Fišer
je redni profesor na Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani, kjer je vodja slovenistične katedre. Je avtor prve slovenske monografije s področja korpusnega jezikoslovja, sodeloval pa je tudi pri vrsti korpusnih projektov v slovenskem prostoru. V svojih raziskavah prevod in prevodni proces raziskuje v sociolingvističnem okviru, v ta kontekst pa sodijo tudi njegova razpravljanja o prevajanju in tolmačenju kot človekovi pravici, predvsem ko gre za skupnostno tolmačenje. S tega področja je uredil tudi monografijo Slovensko tolmačeslovje.
je docentka na Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani. Pri raziskovalnem delu sodeluje pri zbiranju, označevanju in analizi različnih vrst eno- in večjezičnih korpusov, od historičnih do tviteraških. Iz njih nato z vrsto statističnih metod lušči semantično povezano besedišče, prevodne ustreznice in lažne prijatelje. Na področju leksikalne semantike se posveča tudi izdelavi slovenskega semantičnega leksikona sloWNet in uvajanju množičenja v leksikografsko delo, na Oddelku za prevajalstvo pa vodi vaje z vseh teh področij.
Vojko Gorjanc, Darja Fišer: Korpusna analiza
9 789612 376109
Vojko Gorjanc, Darja Fišer
Korpusna analiza Oddelek za prevajalstvo Ljubljana 2013
Vojko Gorjanc Darja Fišer
Korpusna analiza
Ljubljana 2013
Korpusna analiza Avtorja: Vojko Gorjanc in Darja Fišer Recenzentki: Špela Vintar, Nataša Logar Berginc Lektor: Damjan Popič Tehnično urejanje in prelom: Jure Preglau
© Univerza v Ljubljani, Filozofska fakulteta, 2013. Vse pravice pridržane. Založila: Znanstvena založba Filozofske fakultete Univerze v Ljubljani Izdal: Oddelek za prevajalstvo Za založbo: Branka Kalenić Ramšak, dekanja Filozofske fakultete Vodja Uredništva visokošolskih in drugih učbenikov: Janica Kalin Ljubljana, 2013 Druga, predelana in razširjena izdaja Naklada: 200 izvodov Tisk: Birografika Bori, d. o. o. Cena: 8,74 EUR
CIP - Kataložni zapis o publikaciji Narodna in univerzitetna knjižnica, Ljubljana 81'322(075.8) GORJANC, Vojko Korpusna analiza / Vojko Gorjanc, Darja Fišer. - 2., predelana in razširjena izd. - Ljubljana : Znanstvena založba Filozofske fakultete, 2013 ISBN 978-961-237-610-9 1. Fišer, Darja, 1978269429504
Kazalo
3
Kazalo
1 Predgovor..................................................................................................................................9 2 Uvod v delo s korpusi. ......................................................................................................10 2.1 Tipi korpusov...................................................................................................................11 2.1.1 Referenčni korpusi................................................................................................11 2.1.2 Govorni korpusi....................................................................................................11 2.1.3 Specializirani korpusi..........................................................................................12 2.1.4 Vzorčni korpusi.....................................................................................................12 2.1.5 Statični in dinamični korpusi............................................................................12 2.1.6 Primerljivi korpusi................................................................................................13 2.1.7 Vzporedni korpusi................................................................................................13 2.2 Karakteristike korpusov................................................................................................14 2.2.1 Količina ..................................................................................................................14 2.2.2 Kakovost.................................................................................................................14 2.2.3 Dokumentiranost.................................................................................................15 2.2.4 Enostavnost............................................................................................................15 2.3 Korpusi in jezikoslovje...................................................................................................15 2.4 Zapomnite si....................................................................................................................18 2.5 Preberite še........................................................................................................................18 2.6 Vaje......................................................................................................................................18
3 Osnovni pojmi korpusne analize................................................................................21 3.1 Priprava korpusnih podatkov......................................................................................21 3.1.1 Poenotenje zapisa..................................................................................................21 3.1.2 Tokenizacija............................................................................................................21 3.1.3 Lematizacija............................................................................................................22 3.1.4 Označevanje korpusov.........................................................................................22 3.2 Postopki korpusne analize............................................................................................23 3.2.1 Seznami besed.......................................................................................................23 3.2.2 Konkordance..........................................................................................................23 3.2.3 Korpusni vzorci.....................................................................................................23
4
Korpusna analiza
3.2.4 Večbesedne enote..................................................................................................24 3.3 Zapomnite si....................................................................................................................25 3.4 Preberite še........................................................................................................................26 3.5 Vaje......................................................................................................................................26
4 Iskanje po korpusih za slovenščino...........................................................................29 4.1 Korpusi slovenskega jezika...........................................................................................29 4.1.1 Korpusa FIDA in FidaPLUS...............................................................................29 4.1.2 Korpus Nova beseda.............................................................................................30 4.1.3 Korpusa Gigafida in Kres...................................................................................30 4.1.4 Korpus Gos.............................................................................................................30 4.1.5 Specializirani korpusi .........................................................................................31 4.1.6 Vzporedni korpusi................................................................................................31 4.2 Prihodnost........................................................................................................................31 4.3 Zapomnite si....................................................................................................................32 4.4 Preberite še........................................................................................................................32 4.5 Vaje iz iskanja po korpusu Nova beseda....................................................................33 4.6 Vaje iz iskanja po korpusu FidaPLUS........................................................................34 4.6.1 Osnove iskanja.......................................................................................................34 4.6.2 Iskanje po besednih oblikah in po lemah.......................................................36 4.6.3 Iskanje po oblikoskladenjskih oznakah..........................................................36 4.6.4 Iskanje po frazah in po bližini...........................................................................37 4.6.5 Uporaba metapodatkov v FidiPLUS................................................................38 4.6.6 Kombiniranje iskalnih pogojev z operatorji..................................................39 4.6.7 Razširjeno iskanje.................................................................................................39 4.6.8 Obdelava podatkov...............................................................................................41 4.7 Vaje iz iskanja po korpusu Gigafida...........................................................................43 4.7.1 Iskanje......................................................................................................................43 4.7.2 Okolica.....................................................................................................................45 4.7.3 Seznam....................................................................................................................45 4.7.4 Obdelava rezultatov..............................................................................................46 4.8 Vaje iz iskanja po korpusih nl.ijs.si.............................................................................47 4.8.1 Enostavno iskanje.................................................................................................47
Kazalo
5
4.8.2 Zahtevno iskanje...................................................................................................48 4.8.3 Regularni izrazi.....................................................................................................49 4.8.4 Iskanje z jezikom CQP........................................................................................51
5 Orodja za analizo enojezičnih korpusov.................................................................53 5.1 SketchEngine....................................................................................................................53 5.1.1 Konkordance v orodju SketchEngine..............................................................53 5.1.2 Besedni seznami v orodju SketchEngine........................................................56 5.1.3 Izdelava podkorpusov v orodju SketchEngine..............................................58 5.1.4 Tezaver v orodju SketchEngine..........................................................................59 5.1.5 Besedne in razlikovalne skice v orodju SketchEngine.................................60 5.2 WebBootCaT....................................................................................................................61 5.3 WordSmith Tools............................................................................................................62 5.3.1 Uporaba konkordanc v orodju WordSmith Tools........................................63 5.3.2 Izdelava besednih seznamov..............................................................................64 5.3.3 Ključne besede.......................................................................................................67 5.4 JOS ToTaLe in Obeliks...................................................................................................69 5.5 Zapomnite si....................................................................................................................72 5.6 Preberite še........................................................................................................................72
6 Delo z vzporednimi korpusi..........................................................................................73 6.1 Iskanje po Evrokorpusu.................................................................................................73 6.2 Iskanje po korpusih na nl.ijs.si....................................................................................74 6.3 ParaConc...........................................................................................................................75 6.3.1.Osnovne funkcije...................................................................................................75 6.3.2 Funkcija Hot Words.............................................................................................76 6.3.3 Grafični vpogled v korpus..................................................................................77 6.4 Zapomnite si....................................................................................................................78 6.5 Preberite še........................................................................................................................79
7 Seznam spletnih virov in orodij...................................................................................80 7.1 Korpusi...............................................................................................................................80 7.2 Orodja za iskanje po korpusih.....................................................................................80
8 Stvarno in imensko kazalo.............................................................................................81 9 Literatura. ...............................................................................................................................85
6
Korpusna analiza
Seznam slik
Slika 1: Konkordance za besedo glas iz korpusa FidaPLUS...............................................19 Slika 2: Geslo kartica v SSKJ......................................................................................................19 Slika 3: Konkordance za besedo kartica iz korpusa FidaPLUS.........................................20 Slika 4: Konkordance za pridevnik+samostalnik v korpusu jos100k..................................27 Slika 5: Besedni seznam za pridevnik+samostalnik v korpusu jos100k..............................28 Slika 6: Iskanje po lemi v FidiPLUS.........................................................................................36 Slika 7: Iskanje po oblikoskladenjskih oznakah v FidiPLUS............................................36 Slika 8: Iskanje po frazah v FidiPLUS.....................................................................................37 Slika 9: Iskanje po bližini v FidiPLUS.....................................................................................37 Slika 10: Metapodatki v korpusu FidaPLUS.........................................................................38 Slika 11: Razširjeno iskanje po FidiPLUS...............................................................................40 Slika 12: Urejanje konkordanc v korpusu FidaPLUS..........................................................41 Slika 13: Statistična obdelava rezultatov v FidiPLUS.........................................................41 Slika 14: Urejen seznam kolokatorjev za besedo plošča, izdelan v FidiPLUS.................42 Slika 15: Uporaba sita za izločanje neželenih konkordančnih nizov v FidiPLUS �������42 Slika 16: Primer enostavnega iskanja v korpusu Gigadida, s katerim iščemo .
določeno besedno obliko besedne zveze majski hrošč......................................... 44
Slika 17: Primer zahtevnega iskanja v korpusu Gigafida, v katerem iščemo pojavitve samostalnika klop, neposredno pred katerim se pojavlja .
pridevnik šolski............................................................................................................. 44
Slika 18: Primer iskanja v korpusu Gigafida, v katerem raziskujemo .
sobesedilno okolico pridevnika umazan................................................................45
Slika 19: Primer iskanja v korpusu Gigafida, v katerem izdelujemo .
seznam vseh besed, ki se končajo na -ček...............................................................45
Slika 20: Primer preprostega iskanja v konkordančniku CUWI, s katerim v . korpusu Korp iščemo besedo stranka.....................................................................47 Slika 21: Primer zahtevnega iskanja v konkordančniku CUWI, s katerim . v korpusu Korp iščemo besedo stranka..................................................................48 Slika 22: Iskanje po korpusih z orodjem SketchEngine.....................................................54 Slika 23: Filtriranje zadetkov glede na sobesedilo in besedilno zvrst . v orodju SketchEngine...............................................................................................54
Seznam slik
7
Slika 24: Pregledovanje konkordanc v orodju SketchEngine............................................55 Slika 25: Frekvenčni seznam, izdelan z orodjem SketchEngine.......................................55 Slika 26: Iskanje kolokacij v orodju SketchEngine..............................................................56 Slika 27: Izdelava besednega seznama v orodju SketchEngine.........................................57 Slika 28: Urejanje besednega seznama po frekvenci in po abecedi . v orodju SketchEngine...............................................................................................58 Slika 29: Izdelava podkorpusa v orodju SketchEngine.......................................................58 Slika 30: Izdelava seznama sinonimov v orodju SketchEngine........................................59 Slika 31: Seznam sinonimov, izdelan z orodjem SketchEngine.......................................59 Slika 32: Besedne skice za besedo študij..................................................................................60 Slika 33 Razlikovalne skice za besedi območje in cona..........................................................61 Slika 34: Avtomatizirana gradnja specializiranega korpusa . z orodjem WebBootCaT.............................................................................................62 Slika 35: WordSmithov kontrolnik.........................................................................................63 Slika 36: Začetek dela v WordSmithu.....................................................................................63 Slika 37: Konkordance v WordSmithu....................................................................................64 Slika 38: Izdelava besednih seznamov v WordSmithu........................................................65 Slika 39: Frekvenčni seznam z izločenimi praznimi besedami, . izdelan z WordSmithom............................................................................................65 Slika 40: Seznam dvobesednih enot, izdelan z WordSmithom........................................66 Slika 41: WordSmithovi statistični podatki o korpusu......................................................67 Slika 42: Izdelava seznama ključnih besed v WordSmithu................................................67 Slika 43: Seznam ključnih besed, izdelan z WordSmithom..............................................68 Slika 44: Označevanje korpusa s spletnim servisom JOS ToTaLe............................................70 Slika 45: Označevanje korpusa s spletnim servisom Obeliks....................................................70 Slika 46: Primer označenega besedila s servisom JOS ToTaLe..........................................71 Slika 47: Primer označenega besedila s servisom Obeliks..................................................71 Slika 48: Iskanje prevodnih ustreznic v Evrokorpusu.........................................................73 Slika 49: Iskanje prevodnih ustreznic v korpusu EU DGT s CUWI-jem........................74 Slika 50: Iskanje prevodnih ustreznic v korpusu EU DGT z noSketchEngine ������������74 Slika 51: Rezultati iskalnega niza guerre* v ParaConcu......................................................76 Slika 52: Vroče besede v ParaConcu .......................................................................................77 Slika 53: ParaConcov grafični prikaz zadetkov v posameznih francoskih . in slovenskih datotekah.............................................................................................78
8
Korpusna analiza
Seznam vaj
1. vaja: Jezikovna intuicija in korpus.......................................................................................18 2. vaja: Slovar in korpus..............................................................................................................19 3. vaja: Primerjava korpusov......................................................................................................20 4. vaja: Pojavnice in različnice...................................................................................................26 5. vaja: Enopojavnice in bogatost besedišča...........................................................................26 6. vaja: Besedne oblike in leme..................................................................................................27 7. vaja: Konkordance in frekvenčni seznami..........................................................................27 8. vaja: Iskanje po korpusu Nova beseda................................................................................34 9. vaja: Osnovno iskanje po korpusu FidaPLUS...................................................................35 10. vaja: Iskanje po besednih oblikah in po lemah v FidiPLUS........................................36 11. vaja: Iskanje po oblikoskladenjskih oznakah v FidiPLUS...........................................37 12. vaja: Iskanje po frazah in po bližini v FidiPLUS............................................................38 13. vaja: Metapodatki v korpusu FidaPLUS..........................................................................38 14. vaja: Kombiniranje iskalnih pogojev z operatorji v FidiPLUS....................................39 15. vaja: Razširjeno iskanje po korpusu FidaPLUS..............................................................40 16. vaja: Obdelava podatkov v FidiPLUS................................................................................43 17. vaja: Raziskovanje s pomočjo stalnih besedilnih vzorcev.............................................43 18. vaja: Iskanje po korpusu Gigafida . ..................................................................................46 19. vaja: Iskanje s CUWI-jem.....................................................................................................49 20. vaja: Iskanje z regularnimi izrazi.......................................................................................50 21. vaja: Iskanje z jezikom CQP................................................................................................51 22. vaja: Uporaba konkordanc v orodju SketchEngine.......................................................56 23. vaja: Uporaba besednih seznamov in podkorpusov v orodju SketchEngine ���������58 24. vaja: Uporaba tezavra v orodju SketchEngine................................................................60 25. vaja: Uporaba besednih skic v orodju SketchEngine....................................................61 26. vaja: Izdelava korpusa s pomočjo svetovnega spleta.....................................................62 27. vaja: Analiza korpusa z orodjem WordSmith Tools......................................................68 28. vaja: Označevanje korpusa s spletnim servisom JOS ToTaLe in Obeliks................71 29. vaja: Iskanje po Evrokorpusu..............................................................................................74 30. vaja: Iskanje po vzporednih korpusih na nl.ijs.si...........................................................74 31. vaja: Stavčna poravnava vzporednega korpusa z orodjem ParaConc........................78 32. vaja: Iskanje po vzporednem korpusu z orodjem ParaConc.......................................78
Predgovor
9
1 Predgovor
Dopolnjena in razširjena izdaja učbenika iz leta 2010 je namenjena vsem, ki se prvič srečujejo z analizo referenčnih, specializiranih in vzporednih korpusov, pa tudi tistim, ki želijo svoje znanje s področja analize korpusov poglobiti in nadgraditi. Usmerjen je v analizo enojezičnih slovenskih korpusov in tistih dvojezičnih, kjer se v jezikovnem paru pojavlja slovenščina. Učbenik je oblikovan prvenstveno za študente Medjezikovnega posredovanja na Oddelku za prevajalstvo FF UL. Obsega vsebine, ki jih študentje absorbirajo v okviru slovenističnih in skupnih splošnih vsebin v prvem in drugem letniku svojega študija. Namenjen je za rabo pri predavanjih in vajah, hkrati pa je oblikovan tako, da študente usmerja v samostojni študij. Ker gre za učbenik, ki celostno predstavlja orodja za korpusno analizo z vrsto praktičnih vaj, sva prepričana, da bo dobrodošel tudi študentom drugih jezikoslovnih študijskih programov, pri katerih se srečujejo s korpusnimi vsebinami. Poglavja v učbeniku so oblikovana tako, da izhodiščni predstavitvi teme sledi povzetek temeljnih novih spoznanj ter usmeritev na dodatno študijsko literaturo, v drugem delu pa so prikazani zgledi korpusne analize in raba predstavljenih orodij s številnimi praktičnimi vajami, s katerimi študentje lahko preverijo razumevanje snovi in se urijo v samostojni korpusni analizi. V Ljubljani, oktobra 2013. Avtorja
10
2
Korpusna analiza
Uvod v delo s korpusi
Korpus je računalniška zbirka besedil oz. delov besedil, zbranih po enotnih kriterijih za namene različnih, predvsem jezikoslovnih raziskav (Atkins et al. 1992: 1). Če se je v preteklosti uporabljal tudi za neelektronske oblike besedilnega gradiva, kakršno je v slovenskem prostoru npr. listkovno gradivo za izdelavo Slovarja slovenskega knjižnega jezika, pa gre danes pri terminu korpus za elektronske, torej računalniško berljive besedilne zbirke (Kennedy 1998: 3), ki so • enovite, • notranje strukturirane in • standardno označene glede na namen korpusa v skladu z obstoječimi standardi za njihovo gradnjo (Meyer in Mackintosh 1996: 266). Korpusi so lahko sestavljeni iz posameznih zaključenih statičnih enot, imenujemo jih podkorpusi, termin podkorpus pa uporabljamo tudi, ko iz obstoječega korpusa izberemo besedila za potrebe korpusne analize, torej lahko pomeni tudi dinamično izbiro (Atkins et al 1992: 1). Korpusi lahko veliko pripomorejo ne le h kultiviranju in razumevanju jezika, ampak tudi k razumevanju in opisovanju sodobne družbe, kot odseva v jeziku. Korpusni pristop v analizo jezika vnaša večjo verodostojnost – velik obseg načrtno zbranega gradiva namreč omogoča izpostavitev v jeziku tipičnega in zmanjšuje možnost interpretiranja le obrobnega kot temeljnega (Čermák 1995: 119). Korpusi so v jezikoslovno delo vnesli besedilno gradivo, ki je količinsko in kakovostno preseglo predračunalniške gradivne zbirke, hkrati pa pokazalo na njihove omejitve in izpostavilo pomanjkljivosti. Vendar pa pojav korpusov v jezikoslovju pomeni mnogo več kot zgolj gradivo za jezikoslovno analizo. Ob metodologiji za gradnjo korpusov se je oblikovala tudi metodologija korpusne analize in opisov jezikovne rabe. Na korpusu temelječi jezikovni opisi • v svojem izhodišču prisegajo na jezikovno realnost, • tudi ob nepričakovanih rezultatih ne podlegajo intuiciji, • vključujejo več podatkov o tipičnem besedilnem okolju ter • podatkov o komunikacijski realnosti. Če je še do nedavnega korpusni pristop v jezikoslovju veljal za komplementarnega tradicionalnim (Kennedy 1998: 5–12; McEnery in Wilson 1996: 2), je danes na nakaterih področjih jezikoslovja, npr. v leksikologiji in leksikografiji,
Uvod v delo s korpusi
11
vse bolj pa tudi na vseh drugih jezikoslovnih področjih, korpus samostojno raziskovalno izhodišče (Gorjanc 2005; Gantar 2007; Zemljarič Miklavčič 2008).
2.1
Tipi korpusov
Z razvojem različnih korpusov je nastopila tudi potreba po njihovi tipologizaciji in oblikovanju vsaj osnovnih kriterijev za njihovo vrednotenje. S tipologijo korpusov, tipologijo besedil in drugimi aktualnimi vprašanji korpusnega jezkoslovja se je ukvarjala evropska pobuda EAGLES;1 njeni dokumenti in priporočila v veliki meri predstavljajo izhodišče za gradnjo različnih tipov korpusov.
2.1.1
Referenčni korpusi
Temeljno vrsto korpusov predstavljajo referenčni korpusi, ki naj bi predstavili celovito podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi najnatančneje izdelana metodologija gradnje; predstavljajo izhodišče za temeljne jezikoslovne raziskave predvsem s področja slovnice in slovarja, vse bolj pa tudi vseh na jezikovni realnosti temelječih jezikoslovnih in tudi drugih humanističnih in družboslovnih raziskav. Za njihovo gradnjo se v izhodišču predvideva mreža kriterijev za zajemanje raznoterih besedil v korpuse glede na vrsto predvsem besediloslovnih in sociolingvističnih kriterijev. Zaradi svoje velikosti so prav glede raznoterosti besedil, ki jih vključujejo, razdeljeni na podkorpuse, za katere pa spet veljajo kriteriji zajemanja besedil vanje (Gorjanc 2005). Med slovenskimi sta taka npr. korpusa Kres in FidaPLUS.
2.1.2 Govorni korpusi Danes referenčni korpusi večinoma vključujejo tudi transkripcijo govora, sicer pa se govorni korpusi zaradi bistveno drugačne metodologije oblikujejo samostojno, znotraj referenčnih ostajajo ločene enote, največkrat kot podkorpusi. Za referenčne korpuse v glavnem niso zanimive prozodične jezikovne lastnosti, ampak le slovnično-leksikalne; ne gre torej za korpuse, namenjene raziskavi govora, ampak le za zajetje posebnosti govorne komunikacije v referenčnih priročnikih (Atkins et al. 1992: 2). Korpusi za potrebe tako fonetično-fonoloških raziskav kot tudi govornih tehnologij se zato oblikujejo posebej kot t. i. korpusi govora. Ker pa pri tem včasih ne gre za zajemanje celotnih besedil, ampak npr. le posameznih 1 http://www.ilc.cnr.it/EAGLES/typology/typology.html (dostop: 20. 8. 2013). Pri tipologiji korpusov zaenkrat puščamo ob strani tipologije, usmerjene v prevajalsko delo in prevodoslovje.
12
Korpusna analiza
stavkov, v takih primerih govorimo o govornih zbirkah (Gorjanc 2005: 8; Zemljarič Miklavčič 2008: 26). Sodobni govorni korpusi danes vzporedno s transkripcijo shranjujejo tudi avdio- oz. videozapis (Zemljarič Miklavčič 2008: 49). Korpus govorjene slovenščine je GOS.
2.1.3 Specializirani korpusi Za razliko od referenčnih korpusov predstavljajo specializirani korpusi jezik v točno določeni rabi; gre torej za izbor besedil v določeni rabi, izbor pa določa predvsem namen takega korpusa. Metodologija gradnje je pri slednjih v veliki meri prekrivna z referenčnimi, vendar pa pri gradnji korpusa izpostavljajo določene kriterije glede na namen korpusa (Gorjanc in Logar Berginc 2007), npr. homogenost, kot je to v primeru korpusov za terminološke raziskave (Vintar 2008: 85). V začetku korpusnega pristopa v jezikoslovju sta predvsem zaradi tehnoloških omejitev in izjemne dinamike razvoja strok terminologija in terminografija v veliki meri uporabljali tradicionalne pristope (Mayer in Mackintosh 1996: 285), z vzpostavljeno dinamiko gradnje korpusov in njihovega nenehnega nadgrajevanja pa sta postali to področji, ki prav zaradi možnosti hitrega sprotnega opazovanja jezikovnih sprememb vse bolj temeljita na delu s korpusom (Vintar 2008: 78–86). Za slovenščino je tak korpus npr. Korpus besedil odnosov z javnostmi KoRP.
2.1.4 Vzorčni korpusi Ko sestavimo korpus le iz besedilnih fragmentov in ne celotnih besedil, govorimo o vzorčnem korpusu. Korpusi prve generacije, ki so bili z današnjega vidika sorazmerno majhni, so se v težnji po zajemanju čimbolj raznoterih besedil odločali za načelo vzorčenja, tj. enako dolgih fragmentov besedil različnih zvrsti in vrst. Besediloslovne študije so kasneje z jezikoslovnega vidika opozorile na neustreznost metode, saj besedilo kot fragment v bistvu izgubi status besedila, korpus pa zaradi posebnosti posameznih delov besedila ne zajame nekaterih značilnosti besedilnih vrst. Z razvojem tehnologije, ki je omogočala zajemanje večjih količin besedil, so tovrstni korpusi postali manj aktualni, z vidika korpusnega jezikoslovja pa ostajajo zanimivi, saj so postavili neke vrste standard za zajemanje raznoterih besedil v korpuse (Gorjanc 2005: 9).
2.1.5 Statični in dinamični korpusi Korpusi v trenutku dokončne izgradnje postanejo statična pojavnost; da bi čim bolj sledili jezikovni dinamiki, se vse bolj razmišlja o dinamičnem korpusu,
Uvod v delo s korpusi
13
torej takem, ki bi v času spremljal jezikovno dinamiko ter tako zares odseval trenutno podobo jezika. Pri tem lahko korpuse razvijajo v dveh smereh. V korpus novo besedilno gradivo nenehno le dodajamo, zaradi velike količine jezikovnih podatkov pa so parametri za zajemanje besedil bolj ohlapni (Kennedy 1998: 61); dinamičnost jezika tako spremljamo s pomočjo neke vrste megakorpusa (Sinclair 1991: 9, 25). Drugi pa je osnovan na ideji potovanja korpusa skozi čas; ta bi novo gradivo nenehno sprejemal, staro pa izločal v diahrone podkorpuse, pri tem pa zagotavljal bolj ali manj enaka razmerja med besedili; probleme kakovosti jezikovnih podatkov naj namreč ne bi zagotavljala samo količina, ampak tudi zgradba korpusa (Biber 1993: 245). Vse bolj pa postaja aktualna vmesna možnost, ki kombinira idejo megakorpusa z robustnimi parametri vključevanja besedil in dela korpusa, za katerega veljajo natančno izdelani parametri vključevanja besedil (Logar in Šuster 2009: 57–68). Večinoma so korpusi slovenskega jezika statični korpusi.
2.1.6 Primerljivi korpusi Za kontrastivne študije so zanimivi primerljivi korpusi, saj vključujejo primerljiva (tematsko, žanrsko ipd.) besedila v različnih jezikih. Idealen zgled primerljivega megakorpusa bi bil korpus, sestavljen iz referenčnih korpusov različnih jezikov, grajenih po prekrivnih izhodiščnih načelih. Seveda bi morala biti načela gradnje jezikovno neodvisna (Gorjanc 2005: 9).
2.1.7 Vzporedni korpusi Predvsem za prevodoslovje so zanimivi vzporedni korpusi; ti namreč sopostavljajo poravnano izhodiščno besedilo in prevod oziroma prevode istega besedila v drugi jezik oziroma druge jezike; poravnani korpus omogoča vpogled v prevajalske odločitve in strategije prevajanja. Tovrstne korpuse je v osnovi težje graditi, ker je zagotavljanje ustreznih jezikovnih virov zahtevnejše, zato se pri tem velikokrat odpoveduje načelom reprezentativnosti, pri gradnji pa se odloča podobno kot pri korpusih podjezikov samo za segment jezika (Vintar 2001: 232); prav odločitev samo za npr. določeno področje ali določen besedilni tip nam z vidika prevajalstva da tudi boljše (nerazpršene) rezultate. Največji vzporedni korpus s slovenščino je vzporedi korpus prevodov Evrokorpus, vzporedni je tudi slovenski prevodoslovni korpus SPOOK.
14 2.2
Korpusna analiza
Karakteristike korpusov
Vsaki računalniški besedilni zbirki, ki se uporablja za jezikoslovne analize, lahko pripišemo določene lastnosti, ki zagotavljajo korpusu njegov status.2
2.2.1 Količina Količinski podatek o korpusu je njegova velikost, izražena v številu besed. Pri podatku o velikosti korpusa gre v bistvu za podatke o absolutnem številu izraznih enot korpusa, torej o številu enot med dvema presledkoma, kar imenujemo pojavnica (token), za razliko od podatkov o različnih besedah, za kar uporabljamo poimenovanje različnica (type). Velikost korpusov prve glede na korpuse druge generacije se je povečala z indeksom 100. Tudi danes smo predvsem pri referenčnih korpusih priča težnji po zajemanju čim večje količine besedil. Ob velikosti celotnega korpusa pa je pomembna tudi velikost njegovih komponent, saj ni vseeno, v kakšnem razmerju so posamezni deli korpusa. Pri referenčnih korpusih so zaenkrat zunaj uveljavljenih razmerij komponent korpusa govorni podkorpusi, ker količina zajetja govora dejansko ne odseva realnosti količine govorne komunikacije glede na pisno.
2.2.2 Kakovost Kakovost korpusa je določena z avtentičnostjo besedil. Predvideva se, da so besedila v korpusu avtentična, torej del realne pisne, govorne ali elektronske komunikacije. Morebitne vplive na nerealnost komunikacije je potrebno v korpusu označiti. Tako se lahko snovalci korpusov odločijo npr. označiti izpust slike pri pisnem korpusu, saj je z vidika besedilne zgradbe to kostitutivni del avtentičnega besedila, pri transkripcijah govora v korpusu je obvezen podatek, ali je bil npr. dialog posnet z vednostjo udeležencev ali ne, saj zavedanje snemanja pomeni v bistvu simuliranje govorne situacije in s tem njeno nerealnost. Kakovost korpusa je vezana tako na avtentičnost besedil kot tudi avtentičnost zapisa korpusa, kjer se pričakuje vključevanje podatkov o postopkih priprave besedil od pridobljenih za namene vključevanja korpusa do končnega procesiranja korpusnih dokumentov. Pri analizi korpusa se je treba avtentičnosti besedil zavedati, kar pomeni, da v korpusu lahko pričakujemo tudi npr. napake v zapisu, saj ta s svojo avtentičnostjo prinaša tudi tovrste podatke, nikoli ni sistematično »očiščen« napačnih oz. 2 Karakteristike korpusov so povzete po dokumentaciji EAGLES http://www.ilc.cnr.it/EAGLES/typology/typology.html (dostop: 20. 8. 2013).
Uvod v delo s korpusi
15
variantnih zapisov in nenormativne rabe (Aston in Burnard 1998: 37). Tovrstna »čiščenja« korpusa bi lahko vodila tudi do uničenja dragocenih jezikoslovno relevantnih informacij, npr. podatke o razmerju jezikovne rabe do jezikovne norme. T. i. ortografske napake so lahko tudi kazalec jezikovne rabe pri variantnih zapisih, zato jih pri odpravljanju v korpusu ne smemo obravnavati enakovredno (Gorjanc 2005: 11–12).
2.2.3 Dokumentiranost Pri dokumentiranosti je poleg dejstva, da je vsako besedilo v korpusu natančno popisano, kar vključuje različne podatke, npr. o avtorju, času nastanka, mestu objave ...; pomembno, kako so dokumentacijski podatki o besedilu ločeni od besedila samega. To zagotavljajo standardi za zapis in označevanje elektronskih besedil.
2.2.4 Enostavnost Tudi ta karakteristika je povezana z označevanjem korpusa, torej neposredno s standardi in priporočili. Pri korpusnih dokumentih je pomembno, da pripisane oznake nikoli ne motijo prepoznavanja besedila samega, da torej lahko kadarkoli pridemo do neprekinjenega besedilnega niza, golega besedila torej. Zapis korpusa nam mora hkrati omogočiti, da v besedilu lahko ostane označeno kaj, kar se je pri vnosu besedila v korpus izgubilo, npr. izpust naslova, slike ipd., torej podatki, ki so z jezikovnega vidika relevantni. Vse to so danes standardni elementi korpusa, vendar ob tem še ne govorimo o označenih (anotiranih) korpusih; korpus namreč postane označeni korpus takrat, ko so besedilom v korpusu dodane jezikovnoanalitične korpusne oznake, torej ko govorimo o jezikoslovno označenem korpusu.
2.3
Korpusi in jezikoslovje
V tradicionalnih jezikoslovnih raziskavah, posebej še v raziskavah mrtvih jezikov, je bil korpus razpoložljivih besedil – največkrat seveda fragmentarnih – vedno temelj raziskovanja. Kasneje, v prvi polovici 20. stoletja, pa korpusi postanejo aktualni v okviru analiz jezikov brez pisne tradicije; gre za transkripcije govorov kot gradivnega temelja raziskav npr. Franza Boasa in generacije jezikoslovcev, ki so sledile njegovemu delu (Malmkjaer 1996: 73). Prav analiza in klasifikacija jezikov brez pisne tradicije v jezikoslovju narekuje načrtno zbiranje jezikovnih podatkov – ameriško strukturalno jezikoslovje, oprto na delo Bloomfielda, ima korpus ne le za nepogrešljivo praktično orodje, ampak nujno potrebno gradivno osnovo. Kljub diskusijam o ustreznosti gradiva
ISBN 978-961-237-610-9
KORPU Učbenik Korpusna analiza je oblikovan predvsem za študente Medjezikovnega posredovanja na Oddelku za prevajalstvo FF UL. Študentje se ob njem seznanijo s pomenom in temeljnimi pojmi korpusnega jezikoslovja, usvojijo osnove korpusne analize, nato pa se usposobijo za samostojno delo s korpusi – enojezičnimi in vzporednimi. Naučijo se uporabljati orodja za delo s korpusi in graditi korpuse za svoje lastne raziskave. Ker so v učbeniku celostno predstavljena orodja za korpusno analizo z vrsto praktičnih vaj, je lahko dobrodošel tudi študentom vseh drugih študijskih programov, pri katerih se študentje srečujejo s korpusnimi vsebinami.
Vojko Gorjanc
Darja Fišer
je redni profesor na Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani, kjer je vodja slovenistične katedre. Je avtor prve slovenske monografije s področja korpusnega jezikoslovja, sodeloval pa je tudi pri vrsti korpusnih projektov v slovenskem prostoru. V svojih raziskavah prevod in prevodni proces raziskuje v sociolingvističnem okviru, v ta kontekst pa sodijo tudi njegova razpravljanja o prevajanju in tolmačenju kot človekovi pravici, predvsem ko gre za skupnostno tolmačenje. S tega področja je uredil tudi monografijo Slovensko tolmačeslovje.
je docentka na Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani. Pri raziskovalnem delu sodeluje pri zbiranju, označevanju in analizi različnih vrst eno- in večjezičnih korpusov, od historičnih do tviteraških. Iz njih nato z vrsto statističnih metod lušči semantično povezano besedišče, prevodne ustreznice in lažne prijatelje. Na področju leksikalne semantike se posveča tudi izdelavi slovenskega semantičnega leksikona sloWNet in uvajanju množičenja v leksikografsko delo, na Oddelku za prevajalstvo pa vodi vaje z vseh teh področij.
Vojko Gorjanc, Darja Fišer: Korpusna analiza
9 789612 376109
Vojko Gorjanc, Darja Fišer
Korpusna analiza Oddelek za prevajalstvo Ljubljana 2013