Technology

  Background Information

Presente y futuro

Joseba Abaitua

3

 


Localización de software

Se llama localización de software a la traducción y adaptación de programas informáticos a la lengua y cultura de cada país. Por razones fundamentalmente económicas, Irlanda (sede de la asociación NUA) se ha convertido en la Meca de los proyectos de localización de software. Esta actividad no sólo implica la adaptación de programas informáticos, una creciente amalgama de documentación técnica (para grandes equipos, buques, aeronaves, etc.) está cambiando aceleradamente el tradicional soporte en papel por soportes electrónicos. La documentación se entrega ahora en CD-ROM y tiene la forma de hipertexto. El Departamento de Defensa americano exige que todos sus proveedores presenten la documentación en un formato concreto de SGML conocido como "normas CALS". El número de grandes empresas que están emulando esta medida es cada día mayor. Es obvio que el futuro de la documentación especializada discurrirá en su totalidad por medios electrónicos.

 

La sociedad de la información

En relación con la futura sociedad de la información, la Comisión Europea ha puesto un énfasis especial en el estímulo a las llamadas "industrias de la lengua" y a la tecnología necesaria para su desarrollo, la "ingeniería lingüística". Son tres pilares destacados de sus progrmas de fomento cuya razón de ser no es gratuita. El plurilingüismo que caracteriza a Europa, y la distingue del gigante americano, demanda realizar esta apuesta. La manera en que Europa resuelva sus barreras lingüísticas servirá de modelo a un mundo que, no por ser cada vez más pequeño, dejará de ser multilingüe.

El futuro de la traducción automática pasa por la normalización a gran escala de la documentación escrita. Si se plantea como un objetivo práctico, sólo tiene sentido automatizar la traducción cuando se trata de lenguaje estático. El lenguaje estático es una forma de lenguaje que, por un motivo u otro, ha sido fijada, en la que abundan las fórmulas y los clichés y que está, de manera más o menos rigurosa, sometida a control permanente. Se opone al lenguaje dinámico o de la lengua común, que se encuentra en los textos espontáneos o creativos y en el habla coloquial.

La lengua común, por su propia naturaleza, se resiste a los esfuerzos de formalización precisa y exhaustiva que requiere la automatización de la traducción. En este campo, solo cabe hablar en un sentido especulativo, o como complemento o ayuda al traductor humano, que es irremplazable, al modo de los libros de frases y diccionarios, o también con la aportación de fondos documentales que contengan traducciones modélicas que puedan servir de referencia.

En otro orden de cosas, la popularización de Internet abre un nuevo horizonte, debido a su condición globalizadora y plurilingüe, y ofrece un interesante campo de pruebas. En cierto sentido, cuando se editan páginas en varios idiomas, el tipo de trabajo se asemeja a la adaptación o localización de software, área en la que tienen mucho éxito las memorias de traducción.

La experiencia reportada por los mayores consumidores de herramientas informáticas para la traducción (como son la Comisión Europea y la Organización Panamericana de la Salud) se resume de la siguiente manera:

  • La cercanía entre los usuarios de las herramientas y sus desarrolladores es una garantía de que éstas se adapten mejor a la utilidad pretendida.
  • Las herramientas se deben integrar en el flujo documental, con soluciones de ingeniería de software para el tratamiento de formatos, caracteres, correo electrónico, filtros, etc.
  • El desarrollo de los diccionarios es una de las claves del éxito. Antes de la incorporación de EURODICAUTOM, los cuatro pares de lenguas mejor tratados en Systran contenían más de 700.000 artículos de diccionario. Después de la incorporación de la base terminológica, entre los 16 pares de lenguas suman más de 4 millones de palabras.


El proyecto EURAMIS es un buen exponente de las medidas adoptadas por la Comisión Europea.

 

Proyectos con futuro

 

EURAMIS 

EURAMIS (European Advanced Multilingual Information Systems) constituye sin duda un intento decidido por parte de la Comisión Europeapara materializar en un entorno real las ideas de Martin Kay. El proyecto comenzó en 1994 y la primera versión piloto ha sido anunciada para finales de 1997. Como prometen sus promotores, EURAMIS está concebido como una arquitectura de fluyo de las pesadas tareas que los traductores realizan para sus clientes en la Comunidad (redactores, secretarios, etc.). El entorno incorpora, entre otros servicios, los siguientes:

  • El gestor de memorias de traducción de Trados.
  • Un extractor de terminología.
  • El sistema de traducción Systran.
  • Además de todo el elenco de servicios lingüísticos (ECHO - EURODICAUTOM, otras bases terminológicas, etc.)

    El diseño prevee que cualquier trabajador de cuello blanco que solicite una traducción la envíe por correo electrónico al gestor central de EURAMIS. Éste convierte el documento a SGML; los caracteres especiales se codifican de acuerdo con el estándar Unicode. El sistema distribuye el documento, según sus propiedades, entre la memoria de traducción o el programa Systran. El resultado se envía al equipo de traductores humanos, quienes lo revisan o corrigen y lo devuelven al cliente.

    Microsoft-Trados

    Trados es la empresa estrella del sector en la actualidad. Su gama de productos se especializa en la gestión terminológica, MultiTerm, y en las memorias de traducción, Translation Workbench. Pese a una política de precios muy arriesgada, Trados ha conseguido suculentos contratos con la empresa Microsoft y con la Comisión Europea, que han hecho de sus productos parte integrante de los respectivos entornos, de localización (Microsoft) y EURAMIS (la Comisión Europea). El acuerdo alcanzado con Microsoft para una integración de estas herramientas en los entornos futuros de su caja de herramientas ofimáticas Office, augura un próspero futuro para la empresa..

    OpenTag-TMX

    OpenTag es un formato desarrollado por la empresa International Language Engineering (ILE) con el propósito de servir de intermediario entre distintos métodos de codificación de textos (RTF, HTML, XML, LaTeX, etc.). Está basado en el estándar SGML y ha sido tomado como modelo para el desarrollo de TMX (Industry-Standard Translation-Memory eXchange Format). En junio de 1997, poco antes de que diera comienzo el congreso de LISA (Localization Industry Standards Association) representates de empresas líderes del sector se comprometieron a desarrollar TMX. El anfitrión de la reunión fue Jochen Hummel de Trados, Franz Rau de Microsoft hizo las labores de moderación y Alan K. Melby ,de la Universidad Brigham Young, las de secretario. Además de los mencionados, acudieron representantes de AlpNet, IBM, TTP, Logos, Multiling, Star y Systran.

    El objetivo era aprobar la propuesta de ILE para desarrollar TMX basándose en el formato OpenTag, de manera que cualquier usuario pueda exportar e importar sus memorias de traducción de una plataforma a otra.

    Un estándar semejante existe para bases terminológicas: OSCAR (Open Standards for Container/Content Allowing Reuse).

    Legebiduna

    El proyecto LEGEBIDUNA se concibió en 1993, a partir de una iniciativa del Master en Traducción de la Universidad de Deusto, con la pretensión de demostrar la validez de las técnicas de la lingüística computacional para optimizar las traducciones de los boletines oficiales bilingües del País Vasco. Hemos calculado que en torno a 200 traductores traducen alrededor de 70.000 páginas de textos administrativos (edictos, anuncios, convocatorias, resoluciones, etc.) del castellano al esukara cada año. Esto supone más del 80% del total de la traducción al euskara; sin embargo, según datos del Instituto Vasco de Administración Pública (IVAP), la documentación traducida no llega al 20% de la documentación producida por la Administración. Este dato, unido al factor de que se trata de un ámbito muy adecuado para su mecanización, constituye un buen acicate para el proyecto.

    Estamos desarrollando herramientas que aprovechan los textos de un corpus bilingüe como fuente de datos para la creación de entornos de procesamiento de documentos administrativos con ayudas para la composición y traducción simultánea. El corpus se ha tratado por medios automáticos para introducir etiquetas descriptivas cuyo principal cometido es identificar en las dos versiones lo que denominamos unidades de traducción variables. Mediante algoritmos de alineamiento se están construyendo catálogos de pares de equivalencias. Además, como resultado del etiquetado, se han generado definiciones de tipo de documentos (DTDs del estándar SGML ), que equivalen a gramáticas capaces de reproducir la estructura de los textos. En este artículo se defiende la idoneidad de la metodología empleada y se presentan muestras de textos etiquetados y de unidades de traducción variables.El proyecto en la actualidad consta de los siguientes apartados:

    • Creación de un corpus. El corpus en la actualidad está compuesto por boletines de tres administraciones: de las Diputaciones de Álava (BOA 1990-92) y Bizkaia (BOB 1989-95) y del Gobierno Vasco (BOPV 1995). Esto hace un corpus bastante considerable, de aproximadamente 7 millones de palabras en cada lengua (130 Mb). No tenemos previsto, de momento, ampliar más el corpus antes de tratar convenientemente el que ya disponemos.
    • Etiquetado del corpus. Se ha dedicado un considerable al tratamiento de los formatos y en la conversión de los textos a versiones adaptadas de SGML, en la línea de las propuestas de TEI y MULTEXT. Se ha creado un subcorpus etiquetado y alienado de cerca de 1 millón de palabras.
    • Estudio estructural. A partir de un análisis detallado de las distintas clases de documentos en una parte del corpus (Órdenes Forales del BOB), se ha realizado un inventario de etiquetas descriptivas. A partir de los documentos etiquetados se han generado por medios automáticos DTDs, que son utilizadas por un entorno de edición/traducción, desarrollado en TCL.
    • Creación de memorias de traducción. Los textos paralelos se someten a un cotejo automático que tiene como objeto la identificación de unidades de traducción equivalentes en las dos versiones mediante la aplicación de diversos algoritmos de alineamiento. Una vez reconocidas, estas unidades se catalogan formando memorias de traducción.

    Aunque los organismos públicos han prestado una estimable colaboración para la creación del corpus, por el momento el proyecto no está vinculado ni oficial ni financieramente con ningún organismo. Se trata de un trabajo experimental desarrollado en el marco de la investigación de dos tesis doctorales (ver componentes del proyecto).

     

    Otros

    Es pertinente citar los siguientes proyectos y productos:

     

  • Atrás   Seguir

     


    foreignword.com