PATRIZIA ZOTTI
Costruire un corpus parallelo giapponese-italiano Metodologie di compilazione e applicazioni
A partire dagli anni ’90 la diffusione delle tecnologie informatiche, l’interesse della comunità scientifica internazionale e il rapido sviluppo di applicazioni di linguistica computazionale, hanno permesso il fiorire della cosiddetta ‘linguistica dei corpora’ e dei suoi prodotti, tra cui i corpora paralleli – raccolte di testi annotati in una o più lingue di origine e delle relative traduzioni in una o più lingue di destinazione1 – utilizzati nell’ambito di analisi linguistiche avanzate e della didattica delle lingue straniere, della lessicografia multilingue, degli studi traduttologici e della linguistica computazionale (estrazione di terminologia bilingue, disambiguazione e traduzione automatica).2 La produzione di corpora paralleli, tuttavia, è fortemente influenzata dalla disponibilità di dati nelle lingue in esame e per questo ancora abbastanza limitata a quelle coppie di lingue nelle quali è più facile reperire risorse tradotte o comparabili. Non è un caso dunque che, sebbene esistano corpora comprendenti testi in giapponese e inglese (principalmente articoli giornalistici,3 traduzioni di brevetti4 o manualistica software5) siano ancora pochi quelli che includono 1
Secondo alcuni autori sarebbe preferibile parlare di ‘corpus traduttivo’ (S. Johansson “On the role of corpora in cross-linguistic research”, in S. Johansson, S. Oksefjell (a cura di), Corpora and Crosslinguistic Research: Theory, Method, and Case Studies, Rodopi, Amsterdam-Atlanta 1998, pp. 3-24; K.M. Lauridsen, “Text Corpora and Contrastive Linguistics: Which Type of Corpus for Which Type of Analysis?”, in K. Aijmer, B. Altenberg, M. Johansson (a cura di), Languages in Contrast, Lund University Press, Lund 1996, pp. 63-71), ‘bi-texts’ (B. Harris, “Bi-text. A New Concept in Translation Theory”, Language Monthly, 54, 1988, pp. 8-10) oppure ‘core parallel corpus’ (S. Johansson, K. Hofland “Coding and Aligning the English-Norwegian Parallel Corpus”, in K. Aijmer, B. Altenberg, M. Johansson (a cura di), Languages in Contrast, Lund University Press, Lund 1996, pp. 87-112), per evitare possibili confusioni con insiemi di testi bilingue ‘comparabili’ ma non in rapporto di traduzione. 2 Si veda E. Picchi, C. Peters, “Reference Corpora and Lexicons for Translators and Translation Studies”, in A. Trosborg (a cura di), Text Typology and Translation, John Benjamin Publishing, AmsterdamPhiladelphia 1997, pp. 247-276; S. Laviosa (a cura di), “L’Approche basé sur le corpus/The CorpusBased Approach” in Special Issue of Meta 43/4, Les Presses de l’Université de Montreal, Montreal 1998; T. McEnery, A. Wilson, Corpus Linguistics, Edinburgh University Press, Edinburgh 20012. 3 Utiyama M., Isahara H., “Reliable Measures for Aligning Japanese-English News Articles and Sentences”, Proceedings of the 41st Annual Meeting of the ACL - Association for Computational Linguistics, 2003, pp. 72-79. 4 Utiyama M., Isahara H., “A Japanese-English Patent Parallel Corpus”, Proceedings of Machine Translation Summit XI, 2007, pp. 475-482. 5 Ishisaka T., Yamamoto K., Utiyama M., Sumita E., “Development of a Japanese-English Software Manual Parallel Corpus”, Proceedings of MT Summit XII, Ottawa, 2009, pp. 254-259.