19 abril 2024
Inicio > Número 8 > Cómo convertir de PDF a DOC

Cómo convertir de PDF a DOC

Muchos son los traductores desesperados que buscan en la red, preguntan a (des)conocidos, consultan foros o listas de discusión profesionales en busca de alguna solución cuando un cliente les encarga la traducción de un archivo PDF, porque no se pueden reescribir. Si bien este tipo de archivos no está pensado para ser editado, vamos a plantear algunas cuestiones para tratar de solucionar el dilema de editar un documento PDF con unos resultados aceptables que logren el efecto deseado: entregar un documento traducido y estructurado para su posterior maquetación

En el apasionante oficio de la traducción, que la mayoría de lectores de esta revista ejercen, nos enfrentamos cada día a diferentes tipos de textos, que versan sobre ámbitos de especialidad muy variados, desde simples comunicados de lenguaje común hasta temáticas científicas que requieren de unos conocimientos específicos sobre la materia. Dentro de este amplísimo abanico de posibilidades que abarcan los textos susceptibles de traducirse, debemos manejar una gran variedad de programas informáticos que procesan dichos textos en diferentes formatos. Uno de los formatos de documentos digitales más extendido es el PDF (sigla del inglés portable document format, «formato de documento portátil»), porque es un formato de almacenamiento que se puede crear a partir de múltiples programas y se puede consultar con un sinfín de aplicaciones o programas destinados a tal efecto (el más común es Adobe Reader, gratuito y multiplataforma) desde un ordenador, un teléfono móvil, un libro electrónico o una tableta.

Un archivo PDF no es más que una impresión virtual de un documento que se encontraba previamente en otro formato: como cuando se imprime en un folio, pero en el caso de los PDF ese folio es digital. Un documento PDF se puede ver y leer, pero en principio no se puede editar. Su principal característica es la versatilidad, porque no importa el origen del documento: el programa que haya generado ese documento no limita ni impide que se pueda consultar en cualquier sistema operativo o dispositivo electrónico. Esa independencia de los PDF es una gran ventaja con respecto a casi todos los programas informáticos, porque en la mayoría de los casos la consulta o edición de un documento o archivo requiere utilizar el mismo programa que se haya empleado para crearlo. Afortunadamente, esa tendencia ha ido evolucionando con el paso del tiempo para orientarse hacia la compatibilidad, es decir, la posibilidad de disponer de varias herramientas y métodos para crear y consultar formatos de archivo comunes.

En el sector de la traducción, el problema que plantean estos documentos PDF es su edición. Si partimos de la base de que no están pensados para ser editados, solo nos servirán para leerlos y los traduciremos como si fuese un documento en papel, como si tuviésemos un libro en un atril junto al teclado y tradujésemos a partir de una página en blanco con cualquier programa informático que sirva para «escribir», es decir, un procesador de textos (Word de Microsoft, Writer de OpenOffice, Pages de Mac, etcétera). De esta forma, además de traducir, tendremos que ocuparnos de intentar reproducir el formato y, en su caso, crear las tablas, los gráficos y demás elementos que formen el texto. Hoy en día, estas tareas de creación y edición desde cero duplican el tiempo que se necesita para traducir e impiden servirse de los múltiples recursos que proporcionan las herramientas informáticas, como las búsquedas terminológicas, por ejemplo. Cuando contamos con un documento editable, podemos recuperar el formato del texto original, como las tablas o la disposición del texto (columnas, márgenes, títulos, parámetros de los caracteres, etcétera), sin perder nuestro valioso tiempo en maquetar, una labor que muchos clientes no consideran oportuno remunerar. Incluso podemos hacer búsquedas directamente en diccionarios, bancos de datos o páginas de Internet con solo seleccionar las palabras del texto original y pulsar una combinación de teclas (véase la reseña sobre IntelliWebSearch en el número 4 de La Linterna del Traductor). Ahora bien, si el documento no es editable, hay que realizar los pasos uno a uno: abrir los recursos (diccionario, web o aplicación) e introducir la palabra una y otra vez en cada uno de ellos. Consecuencia: perdemos tiempo, ergo, productividad y, sobre todo, rentabilidad. Otra de las desventajas de trabajar con documentos que no pueden editarse es la imposibilidad de aprovechar y alimentar memorias de traducción con sus correspondientes glosarios, herramientas ineludibles que ya forman parte de nuestro día a día.

Así pues, la solución más viable y recomendable pasa por convertir los archivos PDF en documentos editables para trabajar sobre ellos, no perder tiempo y centrarnos en la labor que se nos encomienda: traducir. Si además sabemos, podemos o tenemos que maquetar, estamos realizando una tarea aparte que se factura de manera independiente.

Tipologías

Antes de nada, cabe señalar que no todos los PDF son iguales, porque se pueden crear a partir de diferentes tipos de documentos y mediante diferentes programas informáticos. En función del tipo de PDF del que se trate, tendremos que recurrir a una solución u otra para convertirlos y procesarlos. Podemos crear un PDF a partir de un documento en papel (escaneo de libros o revistas, faxes, actas notariales, textos mecanografiados, entre otros) o bien a partir de un documento digital: un archivo de texto, una hoja de cálculo, una presentación de diapositivas, una composición de maquetación… en definitiva, cualquier documento que incluya texto generado a partir de casi cualquier programa informático. Todos estos documentos convertidos en archivos PDF pueden incluir no solo texto, sino también imágenes, cuadros, tablas, columnas, iconos, símbolos, etcétera.

Procesamiento

Cuando un cliente nos envía un PDF que no es editable, se nos plantean varias opciones:

  1. Solicitar al cliente que nos envíe el archivo original a partir del cual se ha creado el PDF (si dicho archivo era digital en origen, por supuesto) y trabajar sobre él con el mismo programa que lo haya generado: Word, PowerPoint, Illustrator, InDesign, QuarkXpress u otros. En el hipotético caso de tratarse de programas específicos y profesionales que no sean comunes en informática básica, no solo tendremos que disponer de la correspondiente licencia de uso de estos programas, sino que tendremos que saber manejarlos, obviamente. Además, el cliente tendría que facilitarnos los tipos de letra, códigos de colores, archivos de imágenes, etcétera. Así pues, esta opción es una tarea propia de maquetadores y, en su caso, de algunos traductores polivalentes.
  2. Si no disponemos de ese programa original o no sabemos utilizarlo, solicitar al cliente que nos envíe un archivo de texto, con o sin formato, que él mismo haya exportado o copiado del archivo de origen para que podamos trabajar con él con cualquier procesador de textos. Cuando le entreguemos la traducción, un maquetista profesional se encargará de darle formato debidamente para que quede igual que el documento original, con sus letras, colores, dibujos e imágenes.
  3. Si el cliente solamente dispone del archivo PDF y, supuestamente, no puede proporcionarnos el archivo original por la razón que sea, habremos de pedirle que nos convierta el PDF en un documento editable o hacerlo nosotros mismos (véase el siguiente apartado) y cobrarle los servicios de maquetación en consecuencia. Curiosidades de la vida: la sola mención de la palabra «recargo» en el precio del servicio prestado suele producir efectos mágicos, con la consiguiente aparición espontánea y súbita de esos originales hasta entonces imposibles de conseguir… De cualquier modo, a veces es preferible que nos encarguemos nosotros mismos de la conversión, por nuestro propio bien, porque el cliente puede hacer una conversión chapucera por desconocimiento, por salir del paso para que no le incordiemos o porque no quiere ni oír hablar del sobrecoste que conlleva maquetar.

Conversión

En el mundo de la informática, disponemos de diferentes posibilidades para transformar un PDF en un documento editable:

  1. Sistema de copiar y pegar: seleccionamos todo el texto del PDF, lo copiamos y lo pegamos en un procesador de textos. Si el documento lo permite, se detecta el texto y, después de pegarlo, habrá que darle formato seguramente; si no lo permite, lo que copiaremos será una imagen, pero en vez de ser una ilustración, se tratará de una imagen con texto que no se puede editar y, por tanto, no sirve de nada.
  2. Procesamiento directo con TAO o programas de traducción asistida por ordenador (Trados, Déjà Vu, memoQ, Wordfast Pro, etcétera), cuyas últimas versiones integran extensiones para importar archivos PDF directamente sin necesidad de convertirlos previamente con otro programa. Este sistema nos ahorra un paso, pero los resultados no suelen ser muy satisfactorios y apenas nos permiten configurar los parámetros de la conversión.
  3. Conversión de los PDF con algún programa específico (véanse algunos ejemplos en el recuadro) a formato texto (.txt) o documento (.doc) para su edición y traducción posterior con un procesador de textos. Los resultados son aleatorios y no siempre aceptables.
  4. Reconocimiento de las letras y palabras del texto en PDF con algún programa de lectura óptica de caracteres (OCR, por su sigla en inglés) para generar un archivo de texto editable. Esta función de reconocimiento de caracteres es la única viable para documentos escaneados y suele estar incluida en el software de las impresoras con escáner o los programas de conversión de PDF, normalmente de pago.

La opción que ofrece mejores resultados es la tercera, mediante programas gratuitos o de pago. Los gratuitos suelen funcionar en línea, pero algunos ofrecen el servicio sin costes a cambio de cederles el texto (o sea, subir a sus servidores el archivo PDF y su contenido) sin que sepamos muy bien qué harán con esa información ni en qué manos acabará, con lo cual estaremos violando las cláusulas de confidencialidad que hubiéramos podido pactar con nuestros clientes. Además, algunos de estos programas solo permiten convertir un número limitado de páginas del PDF y únicamente nos resuelven parte del problema si nos han encargado la traducción de todo el documento, no solo las primeras páginas. Por su parte, los programas de pago se instalan en el ordenador y las conversiones de los PDF se hacen directamente sin pasar por la web, aunque algunos ofrecen la posibilidad de hacer las conversiones en línea a un precio mucho menor que si instalamos el programa completo en nuestro ordenador. Esta opción es más rentable si no queremos o no podemos invertir en el programa y recibimos solo de manera ocasional algún que otro PDF.

Ejemplos de programas De pago Gratuitos Abbyy 70-200 € Convert PDF to Word Adobe 420-675 € Free PDF to Word INfix 79-129 € PDF Online Nitro 120 € Zamzar

Confidencialidad

En las cláusulas de algunos programas gratuitos, se asegura que los archivos subidos se destruyen después de la conversión y que no serán manipulados por terceros (como dice Convert pdf to Word). Habida cuenta de que manejamos información reservada o confidencial que es propiedad del cliente final, conviene tener muy en cuenta la confidencialidad si recurrimos a este tipo de recursos.

Inversión y amortización

El precio de los programas de pago varía mucho en función de las opciones disponibles, por lo que cabe reflexionar sobre la viabilidad de invertir en uno de ellos y valorar si merece la pena (¿recibimos suficiente cantidad de archivos pdf que justifiquen la inversión?), si bien es cierto que, a veces, basta toparse con un archivo que nos traiga de cabeza para amortizar la inversión en un solo uso.

En ambos casos (programas gratuitos o de pago), los archivos PDF se convierten en archivos de texto «.txt» (sin formato) o archivos con la extensión «.doc», que ofrecen varias opciones para reproducir el formato del documento original con su disposición de párrafos y títulos, con sus encabezados, hiperenlaces, notas al pie, tablas y columnas… al menos aparentemente. En la mayoría de los casos, obtenemos un documento editable, pero con múltiples etiquetas, códigos, espacios a diestro y siniestro, símbolos de caracteres desconocidos (, por ejemplo), tabuladores o marcas de formato (saltos de línea que están donde no deben, saltos de columna o de sección, márgenes dispares, tablas mal creadas, cuadros de diálogo independientes del texto, etcétera). Esto es un despropósito inviable que no nos servirá de mucho, porque nos veremos obligados a darle forma por completo, recomponer el formato, cambiar tipos de letra, establecer o eliminar sangrías, corregir interlineados, reestructurar tablas; será casi como empezar de cero. En definitiva, reaprovecharemos casi todo el texto pero perderemos mucho tiempo maquetando, y probablemente será peor el remedio que la enfermedad. Si en el PDF escaneado había, por ejemplo, algunas páginas en vertical y otras en horizontal, el despropósito será mayúsculo. Eso sí, cabe señalar que no todas las conversiones son deplorables: todo depende de cómo fuera la disposición del texto o cómo se haya maquetado antes de la transformación en PDF. Si el documento de origen que derivó en PDF se creó con un procesador de textos común y presenta una maquetación sencilla (párrafos, texto corrido, algunas negritas o cursivas, títulos, etcétera), la conversión será más que aceptable y podremos trabajar directamente con ese archivo convertido sin mayores problemas. Tal vez haya que rectificar algunos espacios entre palabras o entre caracteres, algunos saltos de línea o tamaños de letra, pero poco más. En cambio, si el documento presenta una maquetación compleja y variada (como podemos observar en cualquier revista impresa, sea de moda, decoración, divulgación o cotilleo), lo más recomendable será hacer una conversión a texto sin formato para ahorrarse tiempo y disgustos, como veremos más adelante.

Cuando se recurre a la lectura óptica de caracteres (OCR), es muy probable que la calidad inicial del documento escaneado nos proporcione resultados dispares, erróneos en la mayoría de los casos, porque solo se reconocen letras —no todas—, sin tener en cuenta cómo están dispuestos los párrafos, las columnas, las tablas… Una vez extraído el texto y copiado (sin formato) en un documento en blanco, conviene pasar primero el corrector ortográfico automático en el idioma de origen para corregir múltiples errores en el reconocimiento de caracteres. Veamos algunos ejemplos de conversión de diferentes tipos de PDF, escaneados o convertidos (casos reales de encargos de traducción):

Resultados

Como hemos visto, existe la posibilidad de transformar o procesar un PDF para traducirlo y devolverle al cliente un documento de apariencia y formato semejantes al texto original. Ahora bien, ¿los resultados son satisfactorios?, ¿todos los esfuerzos han merecido la pena? La mayoría de las veces no le hacemos ningún favor al cliente tratando de entregarle un documento que se parezca al original, y habremos perdido tiempo en vano. Tal vez nos haya quedado muy bonito, pero normalmente el cliente solamente aprovechará y utilizará el texto traducido sin formato para volver a maquetarlo en el programa apropiado. No conservará ni el tipo de letra, ni la resolución, ni las tablas, ni los colores de las imágenes con texto, ni los gráficos: nada. Un maquetador o un impresor profesional no trabaja con Word, y nuestras florituras solo le servirán para saber dónde va cada cosa, pero la utilidad de ese documento final no compensará el esfuerzo y tiempo dedicados.

Conclusión

Teniendo en cuenta que los resultados de la conversión son aleatorios y poco satisfactorios o malamente manejables en muchos casos, y que lo más habitual es que nuestros esfuerzos por maquetar no se remuneren o, peor aún, no le sirvan de nada al cliente final porque procesará el texto con un programa distinto del popular Word, lo más recomendable sería proceder a copiar el texto original directamente (cuando el PDF lo permite) y pegarlo como texto sin formato en un documento de Word usando la función: Pegado especial > Texto sin formato. Otra posibilidad consiste en convertirlo en texto sin formato con uno de esos programas específicos y preparar el texto antes de traducirlo, es decir, darle un formato mínimo que permita saber al cliente a qué equivale cada cosa, la correspondencia entre la traducción y el original: párrafos, negritas, tablas y disposición general del texto sin florituras innecesarias. Conviene decantarse por las conversiones a texto sin formato para evitar problemas, visibles u ocultos: tamaños de letra que bailan de un párrafo a otro, espacios variables entre caracteres, márgenes distintos de un bloque de texto a otro, interlineados variopintos entre unas líneas y otras también, etcétera. Si la maquetación del original es compleja (como ocurre en las revistas, por ejemplo), es preferible incluir anotaciones entre corchetes o resaltadas con colores fluorescentes (cualquier marca que deje bien claro que no es texto traducido sino información) en el idioma del cliente o del maquetador:

Si aparecen gráficos en el texto (como estos ejemplos sacados de una revista corporativa), de nada sirve esforzarse por intentar reproducirlos con exactitud, porque difícilmente dispondremos de las herramientas adecuadas y muy probablemente el cliente final tendrá que rehacerlos con su propio programa y no podrá aprovechar más que el texto traducido que le hayamos proporcionado. En el gráfico de la izquierda, aunque alguien tenga la genial idea de copiar por encima un cuadro de texto con la traducción y fondo relleno de color para «tapar» el texto original, está claro que no conseguirá respetar la forma del diagrama de porciones. En el gráfico de la derecha, lo más conveniente sería indicar la ubicación antes de la traducción, como en el siguiente ejemplo:

[Gráfico superior derecho pág. 20: eje de abscisas]
EN MILLONES
DE DÓLARES: Ene. / Feb. / Mar. / Abr. / Mayo / Jun. / Jul. / Ago. / Sep. / Oct. / Nov. / Dic.

Si bien muchos usuarios de la informática, incluidos los traductores, tienen nociones muy básicas de maquetación y apenas saben sacarle provecho a una pequeña parte de las posibilidades que ofrecen la mayoría de procesadores de textos (fundamentalmente Word), bastan unos simples consejos para salir del paso, estructurar mínimamente los textos y proporcionar al cliente una traducción cuya disposición textual no deje lugar a dudas para su posterior maquetación ni entorpezca el trabajo de los maquetadores profesionales, entiendan o no el idioma del texto traducido. Trabajamos en un mundo global y globalizado y nuestros clientes se encuentran en los cuatro rincones del planeta, por lo que es muy probable que nuestras traducciones sean maquetadas finalmente por profesionales que no entienden ni una sola palabra del texto. Si les ofrecemos un documento claro y sencillo, su desconocimiento del idioma no les impedirá maquetar el texto final a imagen y semejanza del original, sin mayores problemas.

Trucos básicos para una maquetación sencilla

Para no extendernos demasiado, podemos mencionar algunas combinaciones de teclas que evitan el uso del ratón y aceleran el proceso de dar forma a un texto sin formato (en la versión de Word en español, por ser el programa más utilizado):

Seleccionar palabras completasMay + Crtl + Flecha (dcha. o izda.)Seleccionar todoCtrl + ESeleccionar todo un párrafoMay + Ctrl + Flecha (arriba o abajo)Alinear texto a la izquierdaCtrl + QAlinear texto al centroCtrl + TAlinear texto a la derechaCtrl + DJustificar márgenesCtrl + JEliminar palabra a la derecha del cursorCtrl + SuprEliminar palabra a la izquierda del cursorCtrl + RetrocesoAgrandar tamaño de letraCtrl + >Reducir tamaño de letraCtrl + <Convertir a mayúsculas/minúsculasMay + F3Saltar de una palabra a otraCrtl + Flecha (dcha. o izda.)Saltar de un párrafo a otroCtrl + Flecha (arriba o abajo)Insertar un salto de páginaCtrl + Entrar

Por supuesto, hay muchísimos más atajos, no hay más que hacer una búsqueda en Internet, pero conviene memorizarlos e ir utilizándolos poco a poco, para asimilarlos y que nuestros dedos los aprendan de memoria. Llegará un momento en que los utilicemos casi sin darnos cuenta. Sin embargo, uno de los principales problemas son las terribles y temibles tablas que incluyen texto, números y, en ocasiones, logotipos o imágenes. Por muy complejas que parezcan, es preferible elaborarlas desde cero (o casi). Después de la extracción y conversión sin formato de una tabla a partir de un PDF, los datos suelen dividirse automáticamente con tabuladores (cada tabulador delimita las casillas de la tabla). Basta echar una ojeada para comprobar que todos los tabuladores estén correctamente introducidos para convertir ese texto en tabla en un solo clic.

En este ejemplo, las flechas son las marcas de párrafo ocultas que equivalen a un tabulador (se ven al pulsar el botón ¶ o teclear May + Ctrl + 8). Dado que el número de columnas no es igual al número de filas, habrá que combinar celdas en la tercera fila para que queden iguales al original, pero será un procedimiento mucho más rápido que crear una tabla desde cero y teclear todos los datos uno a uno, sobre todo en tablas enormes con cifras, datos y explicaciones.

En definitiva, conviene ir adquiriendo hábitos para aprender a darle un mínimo de forma a los textos sin tener que dedicarle demasiado tiempo. De este modo, el traductor no perderá innecesariamente energía en intentar resolver un problema que no le atañe (la maquetación) y evitará centrarse en labores que no le hacen más que un flaco favor al cliente, aunque sea con buenas intenciones. Al fin y al cabo, la finalidad consiste en prestar un servicio de calidad, en contenido y continente, dentro de los plazos acordados y sin entorpecer a los implicados en la cadena de producción, que no solo está constituida por dos o tres partes —traductor y cliente, agencia mediante o no—, sino que puede llegar a abarcar a varios profesionales hasta la creación del producto final para su impresión, publicación o divulgación: en folios, folletos, libros o revistas; en envases, etiquetas o paneles; en webs, aplicaciones o dispositivos y un larguísimo etcétera de posibilidades. Así pues, zapatero a tus zapatos y traductor a tus traducciones.

Con Word (y derivados) se pueden hacer virguerías,
pero no sirve ni se utiliza en el ámbito profesional
para tareas de maquetación.

José-Luis Morais
+ artículos

José-Luis Morais es licenciado en Traducción e Interpretación y trabaja funda­men­tal­mente desde el francés al español y al gallego. Sus ámbitos de especialidad son la traducción creativa, la medicina alternativa y el turismo.

José-Luis Morais
José-Luis Morais
José-Luis Morais es licenciado en Traducción e Interpretación y trabaja funda­men­tal­mente desde el francés al español y al gallego. Sus ámbitos de especialidad son la traducción creativa, la medicina alternativa y el turismo.
Artículo anterior
Artículo siguiente

Redes Sociales

956me gustaMe gusta
10,638seguidoresSeguir

Último número

- Advertisement -spot_img

Artículos relacionados