Gemini 1.5 Pro: la mayor maravilla de Google AI Studio

Hoy quiero referirme a una Inteligencia Artificial que se ha convertido en una de mis favoritas para hacer transcripciones de manera rápida, gratuita y prácticamente ilimitada: Gemini 1.5 Pro, accesible a través de Google AI Studio.

Para empezar a usarla es muy sencillo. Solo se necesita acceder a Google AI Studio con cuenta de Google. Al ingresar, de inmediato se puede crear un nuevo prompt y ahí se podrá elegir entre varios modelos de IA, pero el mejor es Gemini 1.5 Pro.

Antes de comenzar a trabajar con esta herramienta, recomiendo revisar las configuraciones de seguridad. Esta IA cuenta con filtros para bloquear contenido sensible o peligroso, como acoso, odio o material explícito. Aunque lo ideal es dejarlos activados, en algunos casos puede ser útil desactivarlos para evitar bloqueos innecesarios, como les mostraré más adelante.

Gemini 1.5 Pro y su capacidad para transcribir

Una de las primeras funciones que destaco es la capacidad de Gemini 1.5 Pro para transcribir texto desde imágenes. Subí una imagen manuscrita desde mi Google Drive (ya que AI Studio no permite cargar directamente imágenes desde el dispositivo) y la herramienta reconoció el texto de manera impecable. Esta funcionalidad es ideal si tienen notas a mano o documentos escaneados que necesiten digitalizar.

Otra gran ventaja es que permite transcribir audios en vivo, es decir, pueden grabar directamente desde el sistema y la IA procesará lo que digan de inmediato. En el video compartido al final hago una prueba rápida con un audio corto, y Gemini lo transcribe de manera precisa. Lo impresionante es que puede manejar hasta 2 millones de tokens. Esto equivale a audios de aproximadamente 30 minutos o más. Aunque puede que en algunas ocasiones haya pequeños errores o pausas, el nivel de precisión es alto.

En este video también muestro cómo Gemini 1.5 Pro puede transcribir videos completos. Subí un video de 26 minutos de una entrevista que le hice al cantante Solo Di Medina. Aunque en un primer intento se bloqueó debido a palabras sensibles como “nazis”, ajusté los filtros de seguridad y logré que la transcripción se completara sin problemas. Esto demuestra que, aunque es una IA muy capaz, es importante ajustar las configuraciones según el contenido que estén trabajando.

Además de transcribir, esta IA permite identificar información específica dentro del texto. En mi transcripción del video, le pedí que me señalara nombres de artistas y amigos mencionados durante la conversación, y la IA los identificó sin problema, como por ejemplo, Violeta Parra e Int Illiman. Esta función es muy útil para resúmenes o búsquedas rápidas dentro de textos largos.

En cuanto a su capacidad, no tiene nada que envidiarles a otros modelos como ChatGPT-4 o Claude 3.5. Esto porque ofrece un rendimiento similar y, lo más importante, es completamente gratuita. Por eso, la recomiendo tanto para quienes necesitan realizar transcripciones largas o complejas sin pagar por servicios adicionales.

En resumen, si necesitan hacer transcripciones de entrevistas, audios o cualquier otro tipo de archivo, Gemini 1.5 Pro es una opción excelente. No dejes de probarla y dejarme en los comentarios si has utilizado alguna de estas funciones o si quiere que revise otro modelo de IA en un próximo video.