21 minute read

Costruire un corpus parallelo giapponese-italiano. Metodologie di compilazione e applicazioni

PATRIZIA ZOTTI

Costruire un corpus parallelo giapponese-italiano Metodologie di compilazione e applicazioni

Advertisement

A partire dagli anni ’90 la diffusione delle tecnologie informatiche, l’interesse della comunità scientifica internazionale e il rapido sviluppo di applicazioni di linguistica computazionale, hanno permesso il fiorire della cosiddetta ‘linguistica dei corpora’ e dei suoi prodotti, tra cui i corpora paralleli – raccolte di testi annotati in una o più lingue di origine e delle relative traduzioni in una o più lingue di destinazione1 – utilizzati nell’ambito di analisi linguistiche avanzate e della didattica delle lingue straniere, della lessicografia multilingue, degli studi traduttologici e della linguistica computazionale (estrazione di terminologia bilingue, disambiguazione e traduzione automatica).2 La produzione di corpora paralleli, tuttavia, è fortemente influenzata dalla disponibilità di dati nelle lingue in esame e per questo ancora abbastanza limitata a quelle coppie di lingue nelle quali è più facile reperire risorse tradotte o comparabili. Non è un caso dunque che, sebbene esistano corpora comprendenti testi in giapponese e inglese (principalmente articoli giornalistici,3 traduzioni di brevetti4 o manualistica software5) siano ancora pochi quelli che includono

1 Secondo alcuni autori sarebbe preferibile parlare di ‘corpus traduttivo’ (S. Johansson “On the role of corpora in cross-linguistic research”, in S. Johansson, S. Oksefjell (a cura di), Corpora and Crosslinguistic Research: Theory, Method, and Case Studies, Rodopi, Amsterdam-Atlanta 1998, pp. 3-24; K.M. Lauridsen, “Text Corpora and Contrastive Linguistics: Which Type of Corpus for Which Type of Analysis?”, in K. Aijmer, B. Altenberg, M. Johansson (a cura di), Languages in Contrast, Lund University Press, Lund 1996, pp. 63-71), ‘bi-texts’ (B. Harris, “Bi-text. A New Concept in Translation Theory”, Language Monthly, 54, 1988, pp. 8-10) oppure ‘core parallel corpus’ (S. Johansson, K. Hofland “Coding and Aligning the English-Norwegian Parallel Corpus”, in K. Aijmer, B. Altenberg, M. Johansson (a cura di), Languages in Contrast, Lund University Press, Lund 1996, pp. 87-112), per evitare possibili confusioni con insiemi di testi bilingue ‘comparabili’ ma non in rapporto di traduzione. 2 Si veda E. Picchi, C. Peters, “Reference Corpora and Lexicons for Translators and Translation Studies”, in A. Trosborg (a cura di), Text Typology and Translation, John Benjamin Publishing, AmsterdamPhiladelphia 1997, pp. 247-276; S. Laviosa (a cura di), “L’Approche basé sur le corpus/The CorpusBased Approach” in Special Issue of Meta 43/4, Les Presses de l’Université de Montreal, Montreal 1998; T. McEnery, A. Wilson, Corpus Linguistics, Edinburgh University Press, Edinburgh 20012 . 3 Utiyama M., Isahara H., “Reliable Measures for Aligning Japanese-English News Articles and Sentences”, Proceedings of the 41st Annual Meeting of the ACL - Association for Computational Linguistics, 2003, pp. 72-79. 4 Utiyama M., Isahara H., “A Japanese-English Patent Parallel Corpus”, Proceedings of Machine Translation Summit XI, 2007, pp. 475-482. 5 Ishisaka T., Yamamoto K., Utiyama M., Sumita E., “Development of a Japanese-English Software Manual Parallel Corpus”, Proceedings of MT Summit XII, Ottawa, 2009, pp. 254-259.

testi in giapponese e lingue europee diverse dall’inglese. Si ricordino, tra gli altri, il corpus giapponese-sloveno,6 il corpus tedesco-giapponese sviluppato presso l’Università di Hiroshima ed utilizzato prevalentemente per la didattica, ed il corpus giapponese-inglese-spagnolo-italiano (Pivot Corpus).7

Con il presente contributo si intende illustrare PEI,8 un piccolo corpus parallelo giapponese-italiano contenente dati estratti da articoli giornalistici, sedute parlamentari, testi narrativi e relative traduzioni, creato ai fini di un’analisi contrastiva sulla semantica degli eventi condotta nell’ambito di un dottorato di ricerca. Il corpus ha subito le successive fasi di allineamento, lemmatizzazione, analisi morfologica, etichettatura delle parti del discorso, analisi delle dipendenze ed annotazione temporale, ed è disponibile sia in formato grezzo sotto forma di coppie allineate, che in formato annotato.

Creazione di PEI, il Corpus parallelo Giapponese-Italiano

Il corpus è suddiviso in tre sezioni e composto complessivamente da 7.260 frasi allineate tratte da sedute parlamentari, articoli giornalistici e testi narrativi che risalgono agli anni dal 1965 al 2004. Data l’assenza di risorse parallele facilmente accessibili la selezione dei testi è stata fortemente influenzata dalla disponibilità dei dati. La sezione sedute parlamentari contiene 1916 coppie di frasi: i dati giapponesi sono il frutto di una traduzione dei testi spagnoli del data-set estratto dal Corpus Europarl9 predisposto per l’Europarl test shared task nell’ambito del ‘Workshop on Statistical Machine Translation ACL 2007’;10 le corrispondenti frasi in italiano sono state ricavate dalla sezione italiana completa del corpus Europarl. La sezione articoli giornalistici contiene 2000 coppie di frasi tratte dal Pivot Corpus (si veda nota 7). La sezione testi narrativi, infine, comprende 3.345 frasi tratte da romanzi giapponesi e relative traduzioni in italiano.11

6 K. Hmeljak Sangawa, E. Tomaz, “Nihongo, Surobeniago heiretsu kōpasu no lōkosuto kōchiku no kokoromi”, Technical Report of IEICE. Thought and Language, 108/50, 2008, pp. 7-10. 7 Corpus parallelo giapponese-spagnolo-italiano con Inglese come ‘pivot language’ sviluppato nell’ambito del progetto ‘PivotAlign: Structural Alignment for Bridging Parallel Corpora with Pivot Language’ (Eric Nichols, Jessica C. Ramírez, Patrizia Zotti, Matsumoto Yuji) finanziato da Microsoft Research Asia per il periodo 2009-2010. I dati giapponesi sono tratti dal corpus parallelo ‘Yomiuri Shinbun’, che comprende 180.000 frasi allineate in giapponese e inglese, corrispondenti agli articoli pubblicati negli anni 1989-1996 (59.086 articoli) e 1996-2001 (35.318 articoli). Utiyama M., Isahara H., “A Japanese-English…”, cit. 8 PEI è un nome di fantasia. 9 Il ‘Corpus Europarl’ contiene una raccolta di sedute del Parlamento Europeo tradotte in undici lingue ufficiali dell’Unione Europea, per un totale di circa un milione e mezzo di frasi allineate per ciascuna coppia. P. Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation” Proceedings Machine Translation Summit X, 2005, pp. 79-86. 10 http://www.statmt.org.europarl/ (24.01.2012). 11 Si desidera ringraziare il Prof. Gianluca Coci dell’Università di Torino, la dr.ssa Laura Testaverde e il dr. Alessandro Clementi per aver messo a disposizione le bozze delle proprie traduzioni di romanzi

Il corpus ha al momento una dimensione complessiva di 155.428 tokens12 e 63.889 types nella sezione italiana e di 162.062 tokens e 28.743 types nella sezione giapponese (si veda tabella 1). La quantità di dati è stata definita in modo da mantenere un certo bilanciamento tra i tre generi, sebbene si sia preferito incrementare la sezione narrativa perché caratterizzata da testi più funzionali alla tipologia di analisi per cui il corpus è stato creato (semantica degli eventi con particolare attenzione alle realizzazioni aspettuali).

Corpus Genere Anno Sezione Giapponese

Sezione Italiana Tokens Types Frasi Tokens Types Frasi

Europarl Sedute parlamentari

Bungaku Narrativa

Pivot Corpus

Articoli giornalistici 2000 64.087 7.287 1.916 55.932 16.125 1.916

19652004 19892001 43.432 13.195 3.345 53.586 29.358 3.345

54.543 8.261 2.000 45.910 18.406 2.000

TOT

162.062 28.743 7.261 155.428 63.889 7.261 Tab. 1 – PEI Corpus. Alcuni dati statistici.

Il processo di acquisizione dei dati è avvenuto in quattro fasi successive: 1. acquisizione dei testi, 2. normalizzazione dei dati, 3. correzione, 4. codifica.

I dati tratti dalle sedute parlamentari e dagli articoli giornalistici erano già disponibili in forma di testo semplice senza formattazione e non hanno richiesto un trattamento particolare se non quello di codifica; quelli tratti da testi narrativi giapponesi, viceversa, sono stati acquisiti allo scanner, mentre le relative traduzioni in italiano erano disponibili in formato elettronico, sebbene ricchi di formattazione ed elementi di stile. Per queste ultime due categorie si è resa necessaria una fase di normalizzazione, ovvero conversione dei vari formati in testo semplice, e di eliminazione di tutte le formattazioni, compresi titoli, paragrafi, titoletti, tabelle, figure ed elementi di stile. È stato inoltre necessario verificare e correggere manualmente tutti gli errori derivati dall’acquisizione tramite OCR, un processo laborioso che ha richiesto notevoli sforzi in termini di tempo ed energie. I testi sono stati infine

giapponesi in Italiano. Per motivi di copyright sono stati utilizzati solo estratti dei romanzi giapponesi e le versioni pre-stampa delle rispettive traduzioni in Italiano. 12 Il termine ‘(word) token’ è utilizzato per indicare tutte le singole occorrenze di un testo, incluse le forme coniugate dello stesso lessema; il termine ‘(word) type’ è usato per far riferimento al singolo lemma. Il rapporto tra types e tokens rappresenta la frequenza media con cui ciascun type ricorre e restituisce quindi la varietà lessicale o la complessità del testo. Va tuttavia notato che tale rapporto non costituisce di per sé una misura valida, poiché il valore varia al variare delle dimensioni del testo. Per avere un valore di riferimento più appropriato sarebbe necessario normalizzare la lunghezza del testo calcolando il rapporto, ad esempio, ad intervalli di 1000 parole.

codificati in UTF-8 (Unicode) e ISO (non tutti gli analizzatori morfosintattici gestiscono testi in Unicode).

Una volta acquisiti e ‘ripuliti’, i testi in entrambe le lingue sono stati segmentati (suddivisi in singole frasi) e allineati, sia per permetterne un più semplice utilizzo, che per consentire l’accesso a concordanze parallele. Per la segmentazione è stato predisposto uno script basato sulla punteggiatura (‘.’ ‘!’ ‘?’ ‘…’ ) nel linguaggio di programmazione Python. Per minimizzare gli errori inevitabili dovuti ai limiti di una simile metodologia, lo script per i testi italiani non considera il punto ‘.’ come elemento di chiusura nei seguenti casi: quando sia preceduto da un’abbreviazione nota che non ricorra generalmente a fine frase, ma sia normalmente seguito da un nome proprio con l’iniziale maiuscola (ad es. sig., prof. oppure vs.); quando sia preceduto da un’abbreviazione nota e non sia seguito da una lettera maiuscola come nel caso di ‘etc.’ e ‘ad es.’, elementi che possono ricorrere sia all’interno che a fine frase. Lo script non considera inoltre i punti interrogativi e i punti esclamativi se seguiti da una lettera minuscola o da un sostantivo noto. Lo script per i testi giapponesi non considera il punto solo se compreso all’interno di punteggiatura indicante un discorso diretto (「…」) o seguito da uno o più punti.

Dopo una verifica e correzione manuale del risultato della segmentazione automatica i testi sono stati allineati manualmente,13 procedura che si è rivelata particolarmente critica per i testi narrativi in cui, a differenza di quelli parlamentari e giornalistici, le traduzioni sono molto più libere e i traduttori hanno modificato e riorganizzato il testo originale a loro disposizione per creare un testo di arrivo coerente e scorrevole. Non sono pochi i casi in cui ad una frase giapponese, ad esempio, corrispondono più frasi italiane, o casi in cui porzioni di testo siano state omesse. Sebbene dunque nella maggior parte dei casi l’allineamento rispetti il rapporto di corrispondenza 1:1 (ad una frase nella lingua di partenza corrisponde una ed una sola frase nella lingua di arrivo), sono presenti anche casi di allineamento 1:2, 2:1, 1:3 e 3:1 (il che spiega la discordanza tra numero di frasi giapponesi e numero di frasi italiane riportate in tabella 1. Sarebbe quindi più corretto affermare che l’allineamento è stato effettuato per ‘gruppi di frasi’, con la presenza di spazi vuoti laddove la corrispondenza 1:1 non possa essere rispettata, o con l’aggregazione di più frasi.

Annotazione e parsing sintattico

Il valore aggiunto dei corpora è rappresentato dalle informazioni supplementari ed esplicite – di tipo linguistico ma non solo – con cui il testo è annotato, e grazie alle quali è possibile sia ottenere una conoscenza più approfondita del testo stesso che estrarne i dati di interesse. La cosiddetta ‘corpus annotation’ rappresenta un ambito di ricerca specifico della linguistica computazionale che ha gradualmente

13 La procedura di allineamento automatico rappresenta ancora un ambito di ricerca molto aperto e, date le limitate dimensioni del corpus, si è preferito procedere manualmente.

acquisito un’importanza sempre maggiore negli ultimi tre decenni perché i corpora annotati possono essere utilizzati sia per analizzare fenomeni linguistici, sia per il training e la valutazione di algoritmi specifici in sistemi automatici. L’annotazione può riguardare qualunque aspetto del testo: indicazioni fonetiche, morfologiche, sintattiche, semantiche o altro.

La forma di annotazione più comune è quella morfo-sintattica (POS Tagging – Part-Of-Speech Tagging) in cui ad ogni parola (token) è associata un’etichetta (tag) che indica la categoria grammaticale di appartenenza (sostantivo comune singolare, verbo, aggettivo, etc.), e rappresenta un passaggio obbligato per qualsiasi operazione di trattamento automatico del linguaggio (d’ora in avanti TAL – altrimenti noto come NLP – Natural Language Processing), nonché il punto di partenza per ulteriori analisi linguistiche quali, ad esempio, il parsing sintattico (indicazione della struttura della frase), la gerarchia delle dipendenze o l’annotazione semantica. È generalmente effettuata in modo automatico o semi-automatico con programmi che utilizzano una combinazione di modelli statistici probabilistici (approccio Ngram) e di tecniche TAL.

L’analisi sintattica delle dipendenze (d’ora in avanti parsing sintattico) consiste nella definizione dell’analisi della struttura della frase, ovvero scompone la frase nei suoi principali sintagmi attribuendo alle parole funzioni grammaticali, ruoli tematici o logici, e nella maggior parte dei casi fornisce un diagramma ad albero che rappresenta le relazioni tra gli elementi della frase. Il processo intermedio per la produzione della struttura ad albero richiede la consultazione di un dizionariomacchina contenente le parole della lingua e la loro possibile categoria grammaticale, e il confronto con una grammatica che definisce le regole di buona formazione di una frase nella lingua in questione. Si tratta il più delle volte di una grammatica contestuale (context-free grammar) che descrive una porzione di lingua e serve ad associare a una frase un albero sintattico che ne metta in luce le dipendenze sintattiche. I corpora analizzati con un parser sintattico sono detti treebanks (banche di alberi) perché il prodotto dell’analisi corrisponde a diagrammi ad albero delle frasi del corpus.

14

Il parsing sintattico compare pressoché in tutte le aree della linguistica computazionale. Una delle sue applicazioni più interessanti è il trattamento di grandi masse di dati per l’annotazione automatica di grandi corpora.

Annotazione morfo-sintattica, parsing sintattico e annotazione temporale nel corpus PEI

I dati del corpus grezzo sono stati sottoposti alle successive fasi di lemmatizzazione, annotazione morfo-sintattica, parsing e annotazione temporale.

14 I. Chiari, Introduzione alla linguistica computazionale, Laterza, Bari 2007, pp. 101-104.

Per l’analisi morfo-sintattica dei dati italiani è stato utilizzato TreeTagger,15 un lemmatizzatore e POS tagger sviluppato da Helmut Schmid16 presso l’Istituto di Linguistica Computazionale dell’Università di Stuttgart. È un analizzatore morfosintattico language-independent basato su un approccio probabilistico ‘DecisionTree based’ (basato sul modello predittivo definito ‘albero di decisione’) usato con successo per annotare testi in lingua tedesca, inglese, francese, italiana, olandese, spagnola, bulgara, russa, greca, portoghese e cinese, e adattabile per la lemmatizzazione e l’annotazione di testi in altre lingue in presenza di una base lessicale e di un corpus annotato per l’addestramento del modello computazionale (training).

Per l’analisi morfo-sintattica dei testi giapponesi è stato utilizzato MeCab,17 un POS Tagger sviluppato congiuntamente dal Dipartimento di Informatica dell’Università di Kyoto e dall’NTT (Nippon Telegraph and Telephone Corporation), che identifica la parte del discorso, la coniugazione e la forma verbale ed il lessema.

I dati sono stati quindi sottoposti a parsing sintattico al fine di ottenere la struttura di dipendenza delle singole frasi necessaria per la successiva fase di annotazione automatica con informazioni temporali. I dati giapponesi sono stati analizzati con CaboCha,18 un analizzatore che effettua sia l’analisi morfologica che quella sintattica sviluppato dal Nara Institute of Science and Technology (NAIST). Per i dati italiani si è utilizzato dapprima l’analizzatore sintattico ‘TULE’,19 uno strumento pensato specificatamente per la lingua italiana i cui risultati hanno però fatto sorgere problemi nella gestione di frasi troppo lunghe e della punteggiatura (abbondanti nella sezione sedute parlamentari). Si è deciso dunque di utilizzare MaltParser20 per costruire un analizzatore sintattico ad hoc addestrato con il corpus italiano ISST CoNLL.21

15 Scaricabile gratuitamente da http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ (24.01.2012). 16 H. Schmid, “Probabilistic Part-of-Speech Tagging Using Decision Trees”, Proceedings of International

Conference on New Methods in Language Processing, Manchester 1994, pp. 44-49. 17 Scaricabile gratuitamente da http://mecab.sourceforge.net/ (24.01.2012). 18 Kudo T., Matsumoto Y., “Japanese Dependency Analysis using Cascaded Chunking”, Proceedings of the 6th Conference on Natural Language Learning 2002 (COLING 2002 Post-Conference Workshops), Taipei, 2002, pp. 63-69. 19 http://www.tule.di.unito.it (24.01.2012). 20 Un software per l’analisi delle dipendenze che può essere utilizzato per indurre un modello di parsing da un Treebank e per analizzare nuovi dati utilizzando il modello indotto. J. Nivre, M. Scholz, “Deterministic Dependency Parsing of English Text”, Proceedings of the International Conference on Computational Linguistics, Geneva 2004, pp. 64-70. 21 TreeBank italiano sviluppato congiuntamente dall’Istituto di Linguistica Computazionale di Pisa e dal Dipartimento di informatica dell’Università di Pisa, e derivato dallo ISST (Italian Syntactic-Semantic Treebank), un corpus annotato di lingua italiana. S. Montemagni, M. Simi, The Italian Dependency Annotated Corpus Developed for the CoNLL – 2007 Shared Task, Technical Report, 2007.

Fig. 1 Analisi morfo-sintattica.

I dati così analizzati sono stati infine annotati con etichette temporali contenenti informazioni sul tempo e l’aspetto, nonché sulla classe del verbo definita in base alle caratteristiche degli eventi denotati (tab. 2). Con l’ausilio di TAGPEI22 sono state etichettate manualmente 102 coppie di frasi tratte dalla sezione sedute parlamentari, che hanno rappresentato il campione utilizzato per la successiva procedura di annotazione automatica con la quale sono state inserite le etichette <event> e <makeinstance> ed i relativi attributi (tab. 3).

22 Strumento creato per facilitare l’annotazione temporale del corpus PEI (P. Zotti, Tense, Aspect and the Semantics of Event Description. Towards a Contrastive Analysis of Italian and Japanese. LAP Publishing, Saarbrücken 2012, pp. 145-151 e 217-238.). Si desidera ringraziare a questo proposito l’ing. Riccardo Apolloni per aver progettato e implementato l’etichettatore.

Classe del verbo Tipologia dei verbi appartenenti alla classe

REPORTING

PERCEPTION Verbi che descrivono l’azione di dichiarare, comunicare o narrare (It.: dire, Jap.: iu, It:. scrivere, Jap.: kaku, It.: spiegare, Jap.: setsumei suru, It.: presentare, Jap.: happyō suru); Verbi che descrivono eventi che implicano la percezione fisica di un altro evento (It.: guardare, Jap.: miru; It.: ascoltare, Jap.: kiku; It.: notare, Jap.: kizuku; It.: fissare, Jap.: nagameru);

ASPECTUAL Predicati che codificano informazioni su una particolare fase dell’intervallo di rappresentazione dell’evento. Possono indicare inizio, termine, culmine, continuazione (It.: iniziare a, Jap.: hajimeru; It.: finire di, Jap.: owaru; smettere di, Jap.: yameru; It.: continuare a, Jap.: tsuzukeru).

I_ACTION Predicati che producono un contesto intenzionale che introduce un argomento esplicito nel testo (It.: provare, Jap.: yatte miru; It.: progettare, Jap.: keikaku o tateru, It.: desiderare (di), Jap.: nozomu).

I_STATE Stati che fanno riferimento a mondi alternativi o possibili, introdotti da proposizioni subordinate o da sintagmi verbali (It.: credere (che), Jap.: shinjiru; It.: sperare (che), Jap.: negau; It.: sperare (che), Jap.: kitai suru; It.: preoccuparsi (di), Jap.: shinpai suru). Anche I_STATE introduce un evento che denota una situazione stativa come argomento.

STATE Predicate stativi, circostanze omogenee che durano nel tempo (It.: amare, Jap.: ai suru).

OCCURRENCE Tutti gli altri verbi che descrivono accadimenti che si verificano nel mondo reale (It.: costruire, Jap.: tsukuru; It.: correre, Jap.: hashiru; It.: mangiare, Jap.: taberu.

Tab. 2 – Classi di eventi.23

Tag

<EVENT> Attributi

Class: I_ACTION, I_STATE, STATE, OCCURENCE, PERCEPTION, REPORTING, ASPECTUAL, NONE

<MAKEINSTANCE> Tense: PAST, PRESENT, FUTURE, NONE, INFINITIVE, PRESPART, PASTPART Aspect: PROGRESSIVE, PERFECTIVE, NONE, PERFECTIVE_ PROGRESSIVE, IMPERFECTIVE

Tab. 3 – Attributi delle etichette (tag).

23 Si vedano P. Zotti, Tense, Aspect and the Semantics…, cit., pp. 137-144; R. Saurí, J. Pustejovsky, “Factbank: a Corpus Annotated with Event Factuality”, Language Resources and Evaluation, 43/3, 2009, pp. 227-68.

Nell’annotazione temporale automatica24 gli attributi delle etichette per i testi italiani sono stati stimati utilizzando due sistemi di apprendimento automatico (machine learning25): BACT,26 un classificatore binario che può gestire dati in ingresso codificati come strutture ad albero e Support Vector Machine, un classificatore binario (utilizzato con l’implementazione di Moschitti che può gestire strutture ad albero – Tree Kernel27). Per i dati giapponesi è stato utilizzato solo BACT. Il corpus etichettato è stato suddiviso in 2 parti, l’80% (256 frasi) per l’addestramento del sistema di apprendimento ed il 20% (65 frasi) per la valutazione dei risultati. Le percentuali di successo dell’annotazione automatica della sezione italiana ammontano all’87,1% per il tempo, all’88,5% per l’aspetto e al 63,2% per la classe degli eventi. Nella sezione giapponese ammontano rispettivamente al 73,3% per il tempo, all’80,78% per l’aspetto e al 36,7% per la classe.28 Non è questa la sede per discutere i risultati dell’‘esercizio computazionale’, ma si può affermare che, nonostante le percentuali ancora al di sotto della soglia del 90%, i risultati sono promettenti per quanto riguarda la stima automatica di tempo e aspetto. La situazione è invece più complessa per la stima della classe degli eventi, per la quale si rende necessaria una risorsa lessicale esterna che fornisca le informazioni necessarie per l’identificazione degli eventi, la loro classificazione e l’aspetto.

Gli strumenti per l’interrogazione del Corpus e l’estrazione di dati

Gli strumenti utilizzati per l’estrazione di dati dal corpus sono stati essenzialmente due, MLCT- Multilingual Corpus Toolikit – e Chaki, entrambi disponibili gratuitamente. Il primo, che fornisce una raccolta di strumenti per la gestione

24 Si desidera ringraziare Asahara Masayuki, assistant professor presso il Laboratorio di linguistica computazione del NAIST per la costante collaborazione e per l’ausilio nella definizione della procedura di annotazione automatica; si desidera altresì ringraziare il prof. Matsumoto Yuji, direttore del laboratorio, sia per la sua guida, sia per aver messo a disposizione risorse e strumenti indispensabili per la creazione del corpus e per il suo trattamento. 25 L’apprendimento automatico (noto come machine learning), è una branca dell’intelligenza artificiale che utilizza una serie di tecniche statistiche e probabilistiche per permettere ai computer di ‘apprendere’ da esempi passati e di individuare schemi difficili da interpretare da vasti o complessi campioni di dati. Un sistema di apprendimento automatico tipico si crea raccogliendo campioni di dati che rappresentino l’intera popolazione. Il campione è generalmente suddiviso in due parti: una parte utilizzata per lo sviluppo del sistema di apprendimento (training set) e la restante per la valutazione dei risultati (testing set). 26 http://chasen.org/~taku/software/bact/ 27 http://disi.unitn.it/~moschitt/Tree-Kernel.htm 28 Per maggiori informazioni sulla procedura di annotazione automatica si veda P. Zotti, Tense, Aspect and the Semantics…, cit., pp. 151-162.

di corpora multilingui,29 è stato utilizzato prevalentemente per la visualizzazione dell’intero corpus allineato e per l’estrazione di concordanze parallele. MLCT permette infatti, tra le altre cose, la visualizzazione di due testi a fronte, la possibilità di effettuare ricerche con regular expressions, l’estrazione di concordanze e la loro visualizzazione in formato KWIC - Key Words in Context. Il secondo, pensato per la lingua giapponese ma in grado di gestire anche altre lingue compreso l’Italiano, è un complesso software per la gestione e la ricerca di corpora annotati sviluppato dal laboratorio di linguistica computazionale del NAIST – Nara Institute for Science and Technology,30 che permette di interrogare corpora anche di grandi dimensioni, effettuando diverse tipologie di ricerche: per stringa, per parola, per sequenza di parole, per struttura grammaticale attraverso informazioni lessicali da specificare nei patterns di ricerca e/o di dipendenza. Con Chaki è possibile trattare qualsiasi testo purché preventivamente sottoposto ad un processo di analisi morfo-sintattica che permetta l’utilizzo delle informazioni lessicali etichettate per descrivere pattern di sequenze di parole. Grazie a queste funzioni è stato utilizzato per l’interrogazione del corpus etichettato con le informazioni temporali e per l’estrazione dei dati di interesse.

Fig. 2 Il corpus parallelo.

29 Scaricabile da https://sites.google.com/site/scottpiaosite/software/mlct (24.01.2012). S. Piao et al., “A Multilingual Corpus Toolkit”, Paper presented at the American Association of Applied Corpus Linguistics – AAACL – Conference, Indianapolis, Indiana, USA, 2002. 30 Matsumoto Y. et al, “An Annotated Corpus Management Tool: ChaKi”, Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, 2006, pp. 1418-1421; Matsumoto Y. et al., “Corpus Annotation/Management Tools for the Project: Balanced Corpus of Contemporary Written Japanese”, Proceedings of the 3rd International Conference on Large-scale Knowledge Resources: Construction and Application, Tokyo, 2008, pp. 106-15.

Fig. 3 Chaki

Fig. 4 Chaki – ricerca per stringa.

Fig. 5 Chaki – visualizzazione struttura di dipendenza (sx) e contesto (dx).

Fig. 6 – Chaki – visualizzazione attributi.

Conclusioni

Con il presente contributo sono stati illustrati i passaggi e le metodologie per la compilazione di un corpus parallelo, nonché gli strumenti per la sua interrogazione.

Il corpus PEI è stato creato ai fini di un’analisi contrastiva sulla semantica degli eventi e sulle loro realizzazioni temporali e aspettuali. L’annotazione temporale lo rende particolarmente utile per coloro che lavorano in ambiti che richiedono un’analisi temporale dettagliata nelle due lingue, ma i dati possono essere utilizzati anche in altri settori, dal trattamento automatico del linguaggio che utilizza i corpora elettronici per la costruzione di parser, tagger e lemmatizzatori, agli strumenti di traduzione assistita che si giovano di dati allineati per la predisposizione di memorie di traduzione e banche dati terminologiche.

Il modello proposto per trattare ed elaborare i testi può essere particolarmente utile in contesti accademici, in quanto i software utilizzati sono disponibili gratuitamente, le risorse possono essere impiegate a fini didattici 31 e i dati possono essere consultati anche direttamente da parte di studenti che vogliano accedere a testi paralleli.

PEI è ancora un corpus imperfetto da molti punti di vista: dimensioni, natura delle traduzioni, coerenza dell’annotazione temporale. È necessario continuare ad acquisire e trattare una maggiore quantità di dati per aumentare il campione e migliorarne la rappresentatività, è auspicabile migliorare la coerenza dell’annotazione temporale attraverso una più rigorosa definizione delle informazioni, e continuare a lavorare sulla procedura automatica per affinarne le tecniche e aumentarne le percentuali di successo.

Nonostante ciò, ci si augura che possa rappresentare un primo e importante punto di partenza per quanti si dedicano a studi che si avvalgono dell’utilizzo di dati facilmente comparabili nelle due lingue.

31 I. Chiari, Introduzione alla linguistica..., op. cit., pp. 152-163. Chujo, K. et al, “Reflection on Corpora and their Use in Cross-linguistic Research”, in F. Zanettin, S. Bernardini and D. Stewart (a cura di), Corpora in Translator Education. St. Jerome, Manchester 2003, pp. 101-112.

Building a Japanese-Italian Parallel Corpus Methodologies and Applications

In this paper we present a Japanese-Italian parallel corpus consisting of newspaper articles, parliamentary proceedings and novels, built in the framework of a Ph.D. research aiming at a contrastive analysis on the event’s semantics.

We illustrate the processing steps necessary to compile such texts into a parallel corpus and the annotation chain involving normalisation, segmentation, alignment, pos tagging and parsing.

Given the lack of parallel resources in Japanese and Italian we believe that the parallel corpus, though still limited in size, may represent a relevant base of data for comparable linguistic analysis as well as second language teaching.

日本語・イタリア語並列コーパスの構築 方法論と応用分野

パトリツィア・ゾッティ

本論文では、新聞記事、国会議事、小説等を原資料とする日本語・イ タリア語並列コーパスを提示する。 また、上記の各種テキストから並列コーパスを構成するための正規 化、セグメンテーション、整列、品詞タグ付けと構文解析などの加工 段階、さらに収集した対訳文の特徴、ならびに、同コーパスの利用の 可能性を解説する。 日本語・イタリア語並列データは現時点では存在しないため、同コー パスは、未だ小規模であるとはいえ、言語比較分析や第二言語教育の ための重要なデータベースになりうると考える。

This article is from: