logo-codigo-espagueti

¿Qué es y cómo funciona Whisper?

Una herramienta que podría cambiar por completo tu forma de trabajar.
whisper qué es cómo funciona app IA
¿Ya conoces Whisper? | Foto: OpenAI

Existen diversas profesiones, entre ellas el periodismo, que resultan por un lado fascinantes a la hora de realizar el trabajo de campo, dígase entrevistas con artistas, políticos, científicos, etcétera; sin embargo, cuando se trata de afrontarse al transcripción de largas conversaciones y al incesable tecleo que puede tomar horas y horas, el trabajo puede resultar una pesadilla, y lo mismo aplica para investigadores que trabajan con grabadoras de audio, entre otras carreras. No obstante, existe una solución a esta fatídica labor la cual llega con ayuda con ayuda de una IA llamada Whisper pero, ¿qué es y cómo funciona?

Como ya lo hemos mencionado, Whisper es una inteligencia artificial altamente sofisticada que permite la transcripción de audios a texto de una manera bastante precisa si no es que perfecta. Tal y como lo dice la página OpenAI, es “una red neuronal que se acerca a la robustez y precisión del nivel humano en el reconocimiento del habla en inglés”.  Es, de manera más técnica, un sistema de reconocimiento automático de voz (ASR) entrenado en 680.000 horas de datos supervisados ​​multilingües y multitarea recopilados de la web que además permite la transcripción en varios idiomas, así como la traducción de esos idiomas al inglés.

Cambia por completo tu forma de trabajar frente a la computadora | Foto: Pexels

¿Como funciona Whisper?

De acuerdo con OpenAI la arquitectura Whisper es un enfoque simple de extremo a extremo, implementado como un transformador codificador-decodificador. El audio de entrada se divide en fragmentos de 30 segundos, se convierte en un espectrograma log-Mel y luego se pasa a un codificador. Se entrena un decodificador para predecir el subtítulo de texto correspondiente, entremezclado con tokens especiales que dirigen al modelo único para realizar tareas como identificación de idioma, marcas de tiempo a nivel de frase, transcripción de voz multilingüe y traducción de voz al inglés.

Lo mejor de todo es que se puede acceder de forma libre a través de la web ya que es de código abierto. De este modo, bastará con subir el archivo de audio deseado ya sea una entrevista, investigación, etcétera, y así Whisper nos devolverá el texto transcrito con mucha precisión al cabo de un periodo de tiempo que varía en función de la longitud y el tamaño del archivo de audio.

Whisper es en resumen, un herramienta de transcripción casi inmediata y de alta precisión capaz de funcionar con varios idiomas que resulta perfecta para evitar esas largas horas frente al teclado y facilitar a así la vida de cientos de profesionistas.

¿Qué opinas de Whisper? ¿Te animarás a utilizar esta herramienta?

Con información de OpenAI.

***

No te pierdas el mejor contenido de Código Espagueti a través de nuestro canal de YouTube.

ANUNCIO