# 2 ¿Cómo utilizar Whisper para transcribir tus reuniones virtuales de manera rápida y precisa?

Carlos Vicente Moreno Roballo
27 ene 2023
4 Min. de lectura

La efectividad del tiempo es importante para lograr una mayor productividad y alcanzar nuestras metas.

Una forma de hacer más efectivo el tiempo es utilizar herramientas como Whisper, que permite la transcripción automática de audio a texto. Es una Inteligencia Artificial creada por OpenIA y desde mi punto de vista, una de las IA más impactantes del 2022.

Esto puede ser muy útil, por ejemplo, para las "famosas" notas de reuniones, las cuales nos quitan bastante tiempo al momento de dejar la evidencia de lo conversado en la reunión, adicionalmente nos permite realizar una búsqueda mucho más natural sobre el texto.

Optimizando tu productividad con la transcripción automática de audio a texto, con Inteligencia Artificial.

¿Cómo usar Whisper de Open IA para realizar la transcripción automática de audio a texto?

Para realizar la transcripción automática de audio a texto, sigue estos pasos:

Usa Google Colaboratory, o "Colab" para abreviar, es un producto de Google Research. Colab permite que cualquier persona escriba y ejecute código Python a través del navegador, y es especialmente adecuado para el aprendizaje automático, el análisis de datos y la educación.

Ingresas a https://colab.research.google.com/

Para abrir un Notebook nuevo debes habilitar tu cuenta con tu correo de Gmail.

Posteriormente seleccionas en File la opción "New notebook"

Una vez tengas tu nuevo cuaderno habilitado, lo verás de la siguiente manera

Deberás seleccionar en la sección Runtime, en la opción "Change runtime type"

...GPU y pulsar clic en guardar.

Pulsando clic en + code podrás insertar la siguiente instrucción:

!pip install git+https://github.com/openai/whisper.git

!pip install jiwer

Una vez has copiado y pegado el código sin modificarlo, pulsas clic en ejecutar.

Luego de 28 segundos apróximadamente, se culmina la instalación de Whisper, lo verás de la siguiente manera:

Por lo general nuestras grabaciones de reuniones se encuentran en formato .mp4, para lo cual deberás convertir el archivo de video a un archivo de audio .mp3.

Normalmente uso esta página web para realizar esta conversión

https://online-audio-converter.com/es/

Puedes utilizar la herramienta de tu preferencia...

Recomiendo usar un nombre corto al archivo.mp3

Una vez tienes tu archivo de audio que deseas transcribir en tu computador. Puedes subirlo a la máquina virtual. Pulsando clic en el símbolo de carpeta.

Y pulsando clic en el ícono de subir archivo (que resaltado en la siguiente imagen) podrás cargar el archivo.

En la parte inferior izquierda de la imagen, se visualiza el estado de la carga del archivo .mp3

Una vez cargado el archivo 100% se visualiza de la siguiente manera:

Ahora se procede adicionar la siguiente línea de código para que se vuelva una realidad la transcripción de tu reunión.

Pulsando clic en + code podrás insertar la siguiente instrucción:

!whisper "test003.mp3" --task transcribe --model medium --verbose False --output_dir audio_transcription

Donde dice "test003.mp3", es importante colocar el mismo nombre del archivo cargado.

Le das clic en ejecutar y luego de apróximadamente 20 minutos tendrás tu 100% de ejecución.

Whisper identifica el idioma del audio automáticamente, también podrás solicitarle la transcripción a cualquier idioma para adaptarlo a tus necesidades.

Ahora bien, en el menú de la parte izquierda de la pantalla, seleccionas la carpeta de transcripción y pulsas clic en la opción txt. para obtener en texto toda tu reunión.

Una vez finalizada la transcripción, podrás ver el texto resultante y descargarlo en formato TXT.

Es importante tener en cuenta que la precisión de la transcripción automática puede variar dependiendo de la calidad del audio y del idioma utilizado. Es posible que sea necesario realizar algunos ajustes o correcciones manuales para obtener un resultado más preciso.

Espero que estos pasos te ayuden a utilizar la Inteligencia Artificial en este caso a Whisper para realizar la transcripción automática de audio a texto.

No olvides que la tecnología es tan solo un medio para lograr los objetivos propuestos...

no es el fin en sí mismo.

Reflexiones...

👉🏼La efectividad del tiempo es importante para aumentar la productividad y alcanzar nuestras metas. Una forma de hacer más efectivo el tiempo es utilizar herramientas como Whisper de OpenAI, que permite la transcripción automática de audio a texto.

👉🏼Google Colaboratory (Colab) es un producto de Google Research que permite a cualquier persona escribir y ejecutar código Python a través del navegador y es especialmente útil para el aprendizaje automático, el análisis de datos y la educación.

Para utilizar Whisper de OpenAI, es necesario instalarlo en Colab y cargar el archivo de audio que deseamos transcribir. Una vez hecho esto, podemos utilizar el módulo jiwer de Python para llevar a cabo la transcripción automática.

👉🏼La optimización del tiempo puede tener una relación directa con la innovación y la gestión del conocimiento. Al tener más tiempo disponible, es más fácil explorar nuevas ideas y soluciones a problemas, lo que puede llevar a una mayor innovación en una organización. Es más fácil dedicar más tiempo a la adquisición y el almacenamiento de nuevo conocimiento, que a transcribir por horas enteras las notas de reunión.

Hashtag

#inteligenciaartifical #gestiondelconocimiento #innovación

Lo que viene...

Retomando nuestra publicación del Ecosistema de I&G volveremos para responder la siguiente planteamiento

¿Te has preguntado alguna vez, cómo podrías mejorar la innovación y la gestión del conocimiento en tu organización?

Si te sientes frustrado porque cada persona tiene una comprensión diferente de lo que significa innovación y conocimiento, no estás solo. Estos son términos amplios y complejos que pueden ser difíciles de entender y aplicar en la práctica.

¡Pero no te preocupes! En la próxima edición de nuestro newsletter, te presentaré una estrategia efectiva para homologar el concepto de innovación y la gestión del conocimiento en tu organización y lograr un impacto significativo. ¡No te lo pierdas!

Referencias

Canal Dot CSV. (13 de noviembre 2022). Whisper, el OÍDO más POTENTE de la Inteligencia Artificial (y Open Source!) Youtube. https://www.youtube.com/watch?v=JuMEmF-2FsA&t=811s

Alec Radford, Jong Wook, Kim Christine, McLeavey Payne, Pamela Mishkin, Tao XuGreg y BrockmanIlya Sutskever (21 de septiembre 2022).Introducing Whisper. Recuperado el (26 diciembre 2022) https://openai.com/blog/whisper/