Gemini libera su modelo que mira, escucha y habla en tiempo real

Esta semana hubo uno de los avances más emocionantes de este año (uno más) en el mundo de la inteligencia artificial: la liberación de Gemini 2.0. En mi último video en mi canal de YouTube muestro cómo esta tecnología puede revolucionar la manera en que interactuamos con los modelos de IA, combinando procesamiento visual con respuestas en tiempo real. Es un paso gigante hacia un futuro más conectado e intuitivo.

En este video, compartido más abajo, me enfoco en una de sus características más impresionantes: el modo “Stream Real Time”. Este modo permite que, simplemente con una cámara, puedas mostrar objetos, documentos o imágenes para que Gemini los analice y te dé respuestas inmediatas. Es como tener una inteligencia artificial que no solo entiende lo que dices, sino también lo que ves.

Lo anterior es algo que ChatGPT había anunciado en mayo de este año para sus cuentas de pago (y recién ahora está empezando a implementar), por lo que esta opción gratuita llama mucho la atención.

Para evidenciar su potencial, en el video muestro cómo utilicé esta función para traducir un manual en coreano. Solo bastó con mostrarle la portada y Gemini no solo identificó el texto, sino que lo tradujo con precisión. También demuestro cómo es capaz de reconocer personajes de cómics, brindando detalles como el título, los autores y el contexto de la obra. Todo esto de manera sencilla y rápida.

Este video no solo es una guía sobre cómo usar Gemini 2.0, sino también una invitación a reflexionar sobre cómo estas tecnologías pueden integrarse en nuestra vida diaria. Desde facilitar tareas cotidianas hasta abrir nuevas oportunidades en la educación y el trabajo, Gemini 2.0 es una herramienta que promete hacer nuestras vidas más fáciles e interesantes.

Gemini 2.0: mucho más que una IA “tradicional”

Una de las cosas que más me sorprendió de Gemini es su capacidad para entender el mundo a través de la cámara. Por ejemplo, cuando le mostré un encendedor con un diseño único, fue capaz de identificarlo, describirlo y hasta asociarlo con su función. Esto me dejó claro lo poderosa que puede ser esta herramienta para interactuar con objetos cotidianos.

Otro momento destacado del video es cuando usé Gemini para analizar la portada cómic. l4e costó un poco reconocer que se trataba de Lex Luthor, Man of Steel, pero en cuanto lo hizo me dio detalles sobre quién lo escribió, quién lo ilustró y de qué trata.

Además, aproveché para poner a prueba sus conocimientos sobre temas más serios, como la legislación sobre el consumo de marihuana en diferentes países. Gemini no solo respondió de manera clara, sino que también me ayudó a entender cómo varían las leyes entre regiones, mostrando su utilidad como herramienta de consulta.

Invito a todos a que descubran lo que Gemini 2.0 puede hacer. Estoy seguro de que, al igual que a mí, los sorprenderá todo lo que es capaz de hacer.