Herramientas para aprovechar al máximo la transcripción automática en simultánea y consecutiva

19 de diciembre de 2024

1411

Sin duda, aprovechar las herramientas del reconocimiento vocal para la transcripción de las ponencias es una gran ayuda para la interpretación, tanto en simultánea como en consecutiva, ya que nos permite evitar perder contenido e información importante (especialmente con ponentes muy rápidos o con acentos poco claros). Las herramientas necesarias son muy sencillas y requieren una inversión pequeña, que indudablemente merece la pena.

Llevo muchos años aprovechando los sistemas de reconocimiento vocal para mis traducciones escritas, y siempre he estado investigando cómo aplicarlos en la traducción simultánea y consecutiva. Durante la pandemia, y con la consiguiente aceleración en la difusión de las interpretaciones en línea, esta inquietud creció todavía más. Al fallar casi por completo la posibilidad de colaboración directa en la cabina, intenté encontrar un apoyo en la tecnología.

Empresas como Google, Otter.ai y muchas más ofrecen páginas web o aplicaciones que transcriben bastante fielmente el habla.

Empresas como Google, Otter.ai y muchas más —que han ido apareciendo y desapareciendo— ofrecen páginas web o aplicaciones que transcriben bastante fielmente el habla. Es cierto que el inglés es el idioma de preferencia, pero con el tiempo han ido saliendo varias opciones que ofrecen transcripciones en muchos más idiomas. También es cierto que no todas las personas que presentan una ponencia o pronuncian un discurso hablan con la suficiente claridad para que el sistema las entienda, y en esos casos hay que tirar de nuestro buen oficio y sudar la gota gorda.

Una vez elegido el sistema o la aplicación que nos gusta o que tiene los idiomas que nos interesan, hay que comprar una serie de herramientas y conectarlas correctamente para que la voz de la persona a la que vamos a interpretar llegue directamente y sin interferencias al sistema de reconocimiento.

En primer lugar, hay que conectar a la fuente un duplicador de audio. Lo que buscamos es sacar dos salidas idénticas de sonido para que una vaya a nuestros cascos y la otra al sistema que tiene que transcribir. Si estamos en cabina con una consola, basta con conectar este duplicador en la misma salida de los auriculares y conectar estos a una de las dos salidas del duplicador (imagen 1). Seguidamente conectaremos un cable mini-jack (macho-macho) a la otra salida que queda en el duplicador (imagen 2). El mini-jack que queda libre en este último cable se tendrá que introducir en la entrada de micrófono de nuestro dispositivo donde se realiza la transcripción. Hay varios dispositivos que aceptan la entrada de audio de forma automática, pero no todos. Personalmente, aconsejo comprar una tarjeta de sonido USB (imagen 3), que nos permite tener mejor calidad y control sobre el proceso. En este caso el cable se introducirá en la entrada que tiene el icono del micrófono (no de los auriculares). Una vez elegido el software que queramos utilizar para el reconocimiento vocal, tendremos que indicar en este la entrada de sonido que tiene que «escuchar»; si usamos la tarjeta USB, la elegiremos dentro de las opciones (imagen 4).

A veces, los cables que compramos son de baja calidad o tienen características físicas que generan ruidos molestos que perjudican tanto nuestra interpretación como el resultado esperado de la transcripción.

Hay que tener en cuenta que la calidad y el volumen del sonido son fundamentales. En primer lugar, para tener un buen control sobre lo que escuchamos en los cascos y, en segundo lugar, para que el sonido que llega al dispositivo elegido para el reconocimiento tenga la calidad adecuada para que se pueda transcribir el discurso.

A veces, los cables que compramos son de baja calidad o tienen características físicas que generan ruidos molestos que perjudican tanto nuestra interpretación como el resultado esperado de la transcripción. Es aconsejable utilizar un pequeño amplificador de sonido (imagen 5), que nos puede ayudar (¡y tanto!) a la hora de lidiar con situaciones en las que el volumen que nos llega es ya de por sí muy bajo.

Si, en lugar de utilizar una consola tradicional, tenemos que trabajar en línea desde un ordenador o una tableta, lo único que hay que tener en cuenta es que necesitamos otro dispositivo que, recibiendo el audio del ordenador o la tableta, pueda hacer la transcripción. En este caso, el duplicador de audio irá conectado al dispositivo desde donde escuchamos la ponencia (en Zoom, Teams, Interprefy, etc.), y desde allí seguiremos los mismos pasos indicados más arriba.

Cabe la posibilidad de utilizar aplicaciones de software que nos permiten virtualizar las conexiones audio del dispositivo, para hacer que este «se escuche a sí mismo» sin tener que conectar nada y conseguir que transcriba directamente sin un segundo dispositivo. El problema que puede surgir es que, si no se controlan a la perfección, pueden hacer que ya no se nos escuche a nosotros o que dejemos de escuchar al ponente. Por eso no las aconsejo.

Varias plataformas de interpretación ofrecen el servicio de subtitulado; sin embargo, tiene la desventaja de que suele dejar a la vista solo un par de líneas y no toda la transcripción.

Por mi experiencia con varias personas que han probado este sistema, no todo el mundo considera que les pueda ayudar. De hecho, hay quienes me han comentado que los distrae y desconcentra, principalmente por falta de soltura con la traducción a la vista y porque les parece demasiada información (véase la imagen 6).

Últimamente, varias plataformas de interpretación ofrecen el servicio de subtitulado, que viene siendo prácticamente lo mismo; sin embargo, tiene la desventaja de que suele dejar a la vista solo un par de líneas y no toda la transcripción.

En cuanto a la consecutiva, el concepto es el mismo, y a menudo es suficiente solo un teléfono móvil con un micrófono inalámbrico (imagen 7) que nos permite «ver» la ponencia, además de escucharla, aunque quien hable esté un poco distante. Cuando las condiciones no son óptimas (por ejemplo, si los altavoces están colocados de espaldas al escenario, quien habla tiende a bajar el volumen o a girar la cabeza, etc.), en este caso sí que, a la hora de traducir, tenemos que ser capaces (y para esto hace falta entrenar un poco) de hacer una traducción a la vista con una cierta síntesis (imagen 8).

Todo lo que os he estado contando nos ofrece, sin duda alguna, la oportunidad de tener mayor precisión a la hora de interpretar y proporciona bastante seguridad porque es un apoyo fiable, especialmente cuando nos enfrentamos a ponentes que hablan muy rápido y que adoran hacer listados de números. Personalmente creo que merece mucho la pena probarlo, porque la inversión es pequeña (según los productos que se elijan, unos 30 € sin amplificador y unos 50 € con amplificador), no pesa prácticamente nada y es fácil de conectar.

¡No os desaniméis si no sale a la primera, de verdad que merece la pena intentarlo!

Eso sí, hay que recordar que es muy importante jugar con el volumen, porque en muchas ocasiones un mal reconocimiento vocal es debido a un volumen excesivamente bajo o elevado o a interferencias debidas a cables o aparatos defectuosos. ¡No os desaniméis si no sale a la primera, de verdad que merece la pena intentarlo!

Giampaolo Sponza

+ artículos

Licenciado por la Universidad de Trieste en Traducción e Interpretación en 1997, lleva más de 27 años como traductor e intérprete en el mercado freelance. Le apasionan las tecnologías y siempre intenta estar al día con las novedades que nos pueden ayudar en el día a día, a nivel personal y laboral.

Tags
transcripción automática

Artículo anterior

Adaptarse o resistir

Artículo siguiente

¿A quién beneficia la inteligencia artificial generativa?

Cookie	Duración	Descripción
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Herramientas para aprovechar al máximo la transcripción automática en simultánea y consecutiva

Giampaolo Sponza

Último número

Artículos relacionados

Buenos días a todes: perder y ganar inclusividad en interpretación

10.ª edición de las mentorías de Asetrad: Brújula ante un mercado laboral incierto

Interpretazione in trasformazione: adattare lo stile ai tempi

River Flow. On wellbeing and optimal performance

Hacia licitaciones justas: avances iniciales en la valorización de los intérpretes de conferencia, pero el desafío persiste. ¿Actuamos?

Herramientas para aprovechar al máximo la transcripción automática en simultánea y consecutiva

Giampaolo Sponza

Redes Sociales

Último número

Artículos relacionados

Buenos días a todes: perder y ganar inclusividad en interpretación

10.ª edición de las mentorías de Asetrad: Brújula ante un mercado laboral incierto

Interpretazione in trasformazione: adattare lo stile ai tempi

River Flow. On wellbeing and optimal performance

Hacia licitaciones justas: avances iniciales en la valorización de los intérpretes de conferencia, pero el desafío persiste. ¿Actuamos?