sábado, 18 de febrero de 2012

Gestión de corpus multilingës

Como ocurre en muchas áreas de investigación lingüística, la utilización de un corpus lingüístico -o colecciones de textos que han sido seleccionados y compilados según unas características determinadas- tiene unas aplicaciones muy útiles. Normalmente empleados en análisis estadísticos y/o testeo de hipótesis, permiten señalar la frecuencia con que se uilizan términos o validar normas lingüísticas en un entorno específico.

En el caso concreto de la traducción el interés reside en la creación y el posterior uso de corpus paralelos, en el sentido de textos que son traducciones unos de otros. Hoy en día quizás consista en una herramienta íntimamente relacionada con la lingüística computacional, puesto que el conjunto de textos suelen encontrarse en formato digital. Sin embargo, existe un notorio ejemplo histórico de corpus paralelo: la piedra de Rosetta.

Como resulta lógico, la eficacia de este recurso depende directamente de la estructuración de su contenido; es decir, que los textos y sus traducciones estén bien alineados, incluyendo el mismo número de párrafos e incluso frases. Este proceso de alineación de textos es laborioso y lleva tiempo, por lo que antes de elaborar un corpus paralelo propio debemos conocer algunas herramientas que nos puedan ayudar en nuestra tarea.

En clase hablamos de y la herramienta de código libre Bitext2TMX, que nos permitía alinear dos textos para crear una futura memoria de traducción. También nos adentramos en el WinAlign de Trados -aquí una guía básica para empezar a usar el programa- y el alineador de DéjàVu. Investigando por mi cuenta he encontrado otros materiales que resultarían útiles en la elaboración de nuestro corpus paralelo individual, como la herramienta GIZA++, que ha sido recientemente actualizada y está publicada bajo una licencia copyleft GNU. Por nombrar otros, están también el programa open source Uplug y la herramienta ISA - Interactive Sentence Alignment.



A continuación señalaré algunos de estos corpus paralelos que he ido encontrando durante mi investigación sobre el tema. Uno de los analizado en clase es ParaConc, que a pesar de estar aún en versión beta, posee notoriedad y permite alinear textos, buscar y traducir términos y expresiones, etc. en una gran variedad de lenguas -incluyendo chino, japonés, árabe, etc.

A pesar de no ser un corpus parelelo sino simplemente un corpus lingüístico hispano, me parece interesante resaltar el proyecto del laboratorio lingüístico Molinolabs, y concretamente su corpus formado a partir de artículos de prensa de España, Argentina y México. Además del corpus, posee silabeador, acentuador, anagramador, lematizador y otros recursos más que en mi opinión podrían resultar de gran ayuda.

A parte del material disponible generado por los debates del parlamento europeo, ya comentado en clase, merece mención el corpus paralelo multilingüe JRC-Acquis. Con más de 20 millones de palabras en 230 pares de lenguas, es actualizado constamentemente y constituye el conjunto de leyes aplicables en los estados miembros de la Unión Europea, desde 1950 hasta nuestros días.

Otro de estos recursos es Tatoeba, una gran base de datos de oraciones completas y expresiones traducidas a casi 100 lenguas distintas. Ha sido publicada bajo las licencias Creative Commons por lo que libre y de fácil acceso académico, además de ser también un entorno colaborativo. Aquí el vídeo de presentación:



Para terminar, personalmente me ha resultado interesante un documento que he encontrado en el que su autor explica el proceso de preparación de un corpus paralelo, paso a paso; desde la recopilación de textos a la metodología de alineación empleada.






BIBLIOGRAFÍA:
- http://es.wikipedia.org/
- http://bitext2tmx.sourceforge.net
- http://www-i6.informatik.rwth-aachen.de/
- http://www.gnu.org/
- http://blog.quillslanguage.com/
- http://sourceforge.net/
- http://www.athel.com/
- http://tatoeba.org/
- http://www.molinolabs.com/
- http://www.statmt.org/

No hay comentarios:

Publicar un comentario