Contar la historia de la traducción automática es un reto, ya que se trata de un campo cada vez más amplio y, por qué no, más controvertido, sobre todo en cuanto al futuro de la profesión de los traductores se refiere. Hoy en día cada vez son más las empresas que tratan de recortar costes en los procesos de traducción y apuestan por la traducción automática. ¿Quién no se ha topado con un supuesto encargo de revisión que ha resultado ser un «borrador» de traducción generado automáticamente por el traductor automático de un conocido buscador de Internet? En este artículo vamos a intentar entender su origen y, con un poco de suerte, saber hacia dónde nos dirigimos.
Para comenzar, vamos a entrar en una máquina del tiempo y remontarnos a los orígenes de la traducción automática. Se podría decir que las primeras referencias al concepto de traducción automática se remontan al siglo xvii, cuando filósofos como Leibniz y Descartes reflexionaron sobre cómo relacionar las palabras procedentes de idiomas distintos. Sin embargo, lo que hoy en día conocemos como traducción automática no requiere un salto temporal tan grande, ya que tan solo tenemos que remontarnos al siglo pasado para encontrar los primeros intentos reales de automatizar los procesos de traducción.
Las primeras propuestas sobre sistemas de traducción automática se formularon en 1933, cuando el franco-armenio George Artsrouni y el ruso Petr Smirnov-Troyanskii registraron, de forma completamente independiente, las primeras patentes que recogían propuestas concretas sobre cómo materializar la traducción automática.
Artsrouni diseñó un dispositivo de almacenamiento que se podía emplear para encontrar el significado de cualquier palabra en otro idioma y parece ser que en 1937 tuvo lugar una demostración de un prototipo de este aparato. Si bien los académicos lo equiparan a un primer intento de automatizar la traducción, el prototipo nos recuerda a herramientas como los glosarios multilingües y las bases de datos terminológicas en formato digital, sin las cuales nuestro trabajo sería muy diferente en la actualidad.
Por otro lado, la idea de Troyanskii es mucho más significativa, ya que proponía dividir la traducción automática (en aquel entonces «mecánica») en tres fases. En la primera, un editor que únicamente conociera la lengua de origen debería realizar un análisis «lógico» de las palabras y sus funciones sintácticas. En la segunda fase, una máquina se encargaría de transformar todas las secuencias de palabras y funciones sintácticas a secuencias equivalentes en la lengua de llegada. Por último, en la tercera fase, un editor que solo conociera la lengua de llegada tendría que «adaptar» dichas secuencias a su lengua para que sonaran naturales. Y aunque en su patente únicamente proponía mecanizar la segunda fase, estaba convencido de que la fase de análisis también se podría automatizar. Llegados a este punto, podemos plantear un nuevo inciso: ¿no es precisamente así como funciona en la actualidad el sector de la traducción? Sin saberlo, Troyanskii se adelantó a su época, ya que su propuesta es totalmente análoga a los procesos de postedición que se realizan hoy en día.
Sin embargo, no era conocido fuera de Rusia, y por tanto su propuesta quedó relegada a artículos como este, en el que reflexionamos sobre cómo se gestaron esos grandes «monstruos» a los que tanto temen muchos traductores.
Ajenos a estas patentes, la historia continúa en la Fundación Rockefeller, en el año 1949. Los protagonistas de esta etapa fueron el estadounidense Warren Weaver, de profesión criptógrafo y en aquella época uno de los directivos de la Fundación, y el británico Andrew Booth. Ambos se conocieron en 1946, y en 1947 comenzaron a desarrollar las primeras hipótesis sobre cómo se podrían emplear los ordenadores (un invento reciente de la época) para traducir diversos idiomas entre sí. De hecho, en 1948 Booth trabajó junto al también británico Richard H. Richens en la creación de un analizador morfológico para un diccionario «mecánico» (algo que ahora nos ofrecen diversos diccionarios digitales, por ejemplo). Sin embargo, sería un memorándum escrito por Weaver en 1949 el que realmente provocaría el primer gran revuelo en torno a la traducción automática e incentivaría la investigación en este ámbito en los Estados Unidos. En palabras de Weaver, la traducción automática se podría comparar con las técnicas criptográficas en la segunda guerra mundial:
I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.
Además de las técnicas criptográficas, Weaver también propuso emplear métodos estadísticos, la teoría de la información de Shannon y la exploración de la lógica y los universales lingüísticos.
Durante los años siguientes, varios centros de investigación y universidades estadounidenses dedicaron recursos a la investigación en traducción automática, y en 1954 tuvo lugar la presentación pública del primer prototipo de traductor automático: un sistema desarrollado de forma conjunta por la Universidad de Georgetown e IBM. El sistema no dejaba de tener sus limitaciones: únicamente traducía 49 oraciones de ruso a inglés, su vocabulario era de tan solo 250 palabras y solamente tenía 6 reglas gramaticales. Sin embargo, la demostración logró despertar el interés por el desarrollo de sistemas más complejos y con ello comenzó una época dorada de financiación a gran escala para proyectos de traducción automática en Estados Unidos. Además, el éxito despertó también proyectos de investigación similares en otros países del mundo, en especial, la URSS.
MIT Whirlwind, 1956. (Fuente: http://www.computerhistory.org)
Así, podríamos decir que el decenio de 1956 a 1966 estuvo marcado por un gran optimismo en lo que a la traducción automática se refiere. Muchos de los avances tuvieron lugar gracias al clásico método de «ensayo y error», a la adopción de métodos estadísticos y a enfoques teóricos basados en investigación lingüística con el objetivo de encontrar soluciones a largo plazo. No obstante, no podemos olvidar uno de los mayores obstáculos de la época: los propios ordenadores.
Así, muchos investigadores se vieron obligados a centrarse en temas más teóricos. Los estadounidenses y soviéticos, por su parte, concentraron sus esfuerzos en desarrollar sistemas de traducción automática ruso-inglés e inglés-ruso por motivos obviamente políticos y militares.
La primera conferencia sobre traducción automática tuvo lugar en 1952 y la organizó Yehoshua Bar-Hillel, director del grupo de investigación en traducción automática del MIT y encargado de realizar un estudio sobre el campo. En 1960 Bar-Hillel publicaría un informe que marcaría el rumbo de la investigación en traducción automática. En él criticaba el objetivo de lograr traducciones automáticas de gran calidad que no se pudieran diferenciar de las realizadas por un ser humano. Bar-Hillel no solo dijo que no era realista, dado el estado del conocimiento lingüístico y de los ordenadores, sino que se aventuró a aseverar que era imposible. ¿Y no es esto lo que todavía hoy se sigue diciendo?
Por ahora, dejaremos la década del optimismo con grupos de investigación en varios países de todo el mundo, aunque como todo en esta vida, la historia se tuvo que enfrentar a un duro revés en 1966: el informe ALPAC. De este informe, de sus consecuencias y del modo en que la traducción automática siguió su camino hablaremos con más detalle en el siguiente artículo.
Si bien los años 50 fueron una década de gran optimismo, conforme la complejidad de los problemas lingüísticos se fue haciendo más notoria, ese entusiasmo inicial dio paso al desconcierto y a la desilusión. El informe Bar-Hillel ya apuntaba indicios de problemas que la traducción automática no podía resolver y, pese a que la investigación continuó su curso tanto en Estados Unidos como en Europa, en 1964 las principales fuentes de financiación estadounidenses, es decir, las agencias militares y de inteligencia, solicitaron a la National Science Foundation la creación de un comité asesor para el procesamiento del lenguaje natural: el Automatic Language Processing Advisory Commitee (ALPAC). Este comité recibió el cometido de evaluar la situación y en 1966 se publicó el famoso «informe ALPAC». En él se concluía que la traducción automática era más lenta, de menor calidad y dos veces más cara que la misma traducción hecha por una persona, y por tanto no se recomendaba continuar invirtiendo en su desarrollo.
Como el lector imaginará, este fue un revés importante para el desarrollo de la traducción automática y, si bien afectó de manera más notoria a los investigadores estadounidenses por motivos obvios, también afectó a los de otros países, ya que se llegó a argumentar que si en Estados Unidos, con las facilidades y recursos que tenían, se rechazaba, en países con infraestructuras menos desarrolladas las probabilidades de éxito serían aún más escasas. Para los traductores también tuvo implicaciones, y no necesariamente negativas. Si bien en el informe no se recomendaba continuar investigando la traducción automática, sí se hacía hincapié en la necesidad de desarrollar herramientas de ayuda para los traductores: lo que frenó la investigación en un ámbito la incentivó en otro del que nos beneficiamos a diario: bases de datos terminológicas, diccionarios electrónicos, memorias de traducción, sistemas de reconocimiento del habla…
El decenio que siguió al informe ALPAC fue sin duda un decenio de menor movimiento y excitación en torno a la traducción automática, aunque hubo grupos que continuaron trabajando en ello y se produjo un cambio de enfoque. Si bien hasta ahora los esfuerzos se habían centrado en sistemas de traducción automática directa, el enfoque ahora era hacia sistemas de traducción automática basados en interlingua y sistemas de transferencia.
Hagamos un pequeño inciso para entender las diferencias entre cada uno de los enfoques y, por aquello de que «vale más una imagen que mil palabras», este pequeño gráfico ilustra las diferencias entre los tres enfoques:
Así, los sistemas de traducción directa prácticamente no utilizan ningún tipo de análisis de la lengua origen ni reglas de generación en la lengua meta; los sistemas basados en la transferencia analizan lingüísticamente el texto original y, mediante unas reglas de transferencia, establecen los equivalentes en la lengua meta y dichos equivalentes se reproducen siguiendo unas reglas de generación, y, por último, en los sistemas basados en una interlingua el texto original se analiza y se traslada a la interlingua, un lenguaje abstracto y común para todos los idiomas del traductor automático, para después trasladarse nuevamente a la lengua meta. Este último enfoque suele utilizar como argumento que permite desarrollar sistemas de traducción automática multilingües independientemente de las combinaciones de idiomas, puesto que la transferencia siempre se hace a través de la interlingua y todos los idiomas que se incorporan al sistema deben poderse «traducir» correctamente a la interlingua y desde esta. Si nos ponemos nostálgicos, quizás nos lleguen reminiscencias de la Escuela de Traductores de Toledo y de cómo utilizaban una lengua puente para traducir los textos. La diferencia es que en este caso es el ordenador quien se encarga de todo.
Y una vez hecho el inciso, retomemos nuestra historia. Como decíamos, entre 1966 y 1976 la investigación se centró en desarrollar sistemas de traducción automática de transferencia y sistemas basados en una interlingua. Mientras en Estados Unidos la actividad se había concentrado en el par de lenguas inglés-ruso, en otros países las necesidades eran diferentes. Los canadienses tenían un mayor interés en desarrollar sistemas inglés-francés, y en Europa la necesidad de traducir textos científicos, técnicos, administrativos y legales a los idiomas de la Comunidad Europea acuciaba también el desarrollo de sistemas de traducción automática.
Uno de los sistemas que todavía hoy se mencionan como un gran éxito de la traducción automática vería la luz en 1976: el sistema Météo desarrollado por el proyecto TAUM (Traduction Automatique de l’Université de Montréal). Este sistema es conocido por la gran calidad de sus traducciones de partes meteorológicos. ¿El truco? Un dominio muy concreto con un vocabulario muy restringido y una sintaxis limitada.
El éxito de Météo fomentó un nuevo fervor en el ámbito y ello trajo consigo numerosos proyectos en la década de los 80. Barriendo para casa y por acercar un poco la historia a nuestro continente, debemos recordar el mayor proyecto de traducción automática desarrollado hasta ese momento: EUROTRA. Este proyecto tenía por objetivo desarrollar un sistema multilingüe de traducción automática basada en reglas de transferencia para los idiomas de la Comunidad Europea. Sin embargo, el proyecto no llegó a culminar y llegó a su fin al agotarse la financiación por parte de la Unión Europea.
Desde aquel entonces hasta nuestros días es evidente que la investigación ha continuado (¿cómo puede ser, si no, que Google Translate tenga resultados bastante aceptables en algunas combinaciones de idiomas?). ¿Pero cómo? Seguramente los objetivos de proyectos como EUROTRA eran demasiado ambiciosos para el estado de la investigación en procesamiento del lenguaje natural del momento. Sin embargo, precisamente gracias a estos proyectos se pudieron detectar los errores y obstáculos que había que solventar para poder acercarnos a una traducción automática de mayor calidad, y esto dio lugar a la proliferación de nuevas áreas de investigación mucho más concisas y que en los últimos años han logrado resultados muy positivos. Precisamente esos avances han provocado que también en los últimos años haya habido una nueva «ola» de proyectos, tanto de financiación pública como privada, para mejorar los sistemas de traducción automática. Son varios los proyectos financiados por el Séptimo Programa Marco de la Unión Europea que están trabajando en ello actualmente, sin olvidar sistemas como el de Google Translate y otros programas comerciales.
De nuevo, la manera de intentar llegar a una solución óptima no está clara y por ello hay distintas tendencias y enfoques. Hay grupos de investigación trabajando en modelos basados en la interlingua, como por ejemplo el proyecto Molto de la UE, modelos basados en sistemas de reglas de transferencia; en España contamos con uno de los más conocidos, el sistema Apertium, desarrollado por el grupo de investigación Transducens de la Universidad de Alicante, sistemas de traducción automática basados en métodos puramente estadísticos, cuyo mayor exponente es el sistema de código abierto Moses, desarrollado a lo largo de varios años por varios proyectos de la UE, sistemas de traducción automática basada en ejemplos, que para funcionar utilizan grandes cantidades de corpus paralelos alineados, y sistemas híbridos de traducción automática que intentan combinar reglas lingüísticas con modelos estadísticos o basados en ejemplos. ¿Lograrán encontrar la llave de esta caja de Pandora? De momento no está claro, pero lo que sí sé es que los traductores debemos estar, cuando menos, al día de estos avances para que los posibles cambios que se produzcan en nuestro sector y en nuestros protocolos de trabajo no nos pillen por sorpresa.
Bibliografía
Hutchinsstyle>, W. J. (1995). «Machine translation: a brief history». En: Koerner, E. F. K. y Asher, R. E. [eds.]. Concise history of the language sciences.Oxford: Pergamon, 1995, p.431-445.
— (2001). Machine translation over fifty years. Histoire, Epistémologie, Langage. Vol. 23 (1), 2001: Le traitement automatique des langues [ed. Jacqueline Léon], 7-31.
— (2001). «Machine translation and human translation: in competition or in complementation?». International Journal of Translation, vol. 13, no. 1-2, Jan-Dec 2001, pp. 5-20. Special theme issue on machine translation, [editor] Michael S. Blekhman. Y también en: Machine translation theory & practice, editado por Michael S. Blekhman. New Delhi: Bahri Publications, 2001. (BP Series in Translation Studies, 8).
— (2005). The history of machine translation in a nutshell.
— (2006). «Machine translation: history of research and use». En: Brown, K. [ed.]. Encyclopedia of Languages and Linguistics. Vol. 7. 2.ª ed., Oxford: Elsevier, 2006, p. 375-383.
Algunos proyectos europeos en los que se está trabajando en traducción automática actualmente:
Accurat (Analysis and Evaluation of Comparable Corpora for Under Resourced Areas of Machine Translation)
EuroMatrixPlus (Bringing Machine Translation for European Languages to the User)
FAUST (Feedback Analysis for User adaptive Statistical Translation)
Itranslate4.eu (Internet Translators for all European Languages)
LetsMT! (Platform for Online Sharing of Training Data and Building User Tailored MT)
MOLTO (Multilingual Online Translation)
Pluto (Patent Language Translations Online)
PRESEMT (Pattern REcognition-based Statistically Enhanced MT)
SignSpeak (Scientific understanding and vision-based technological development for continuous sign language recognition and translation)
SUMAT (An Online Service for SUbtitling by MAchine Translation)
TTC (Terminology Extraction, Translation Tools and Comparable Corpora)
Carla Parra Escartín
Es investigadora Marie Skłodowska-Curie en Dublin City University (DCU), dentro del centro de investigación interuniversitario ADAPT. Es doctora en Lingüística Computacional por la Universidad de Bergen (Noruega) y licenciada en Filología Inglesa, Traducción e Interpretación (alemán-inglés-español) y Lingüística. Ha trabajado como traductora, revisora y directora de proyectos en plantilla y también como traductora autónoma.