Gemini Omni: Google filtra su nueva IA de video días antes del I/O

Crédito: Hipertextual

A tres días de que arranque Google I/O 2026 —la conferencia anual para desarrolladores que esta vez se celebra el 19 y 20 de mayo en Mountain View— la propia compañía dejó escapar una de sus cartas más fuertes. Un usuario de Reddit identificado como Zacatac_391 recibió por error una notificación push de la app Gemini invitándolo a probar «Omni», el motor de video generativo que Google todavía no había anunciado. Le bastó una tarde para publicar capturas, dos demos completas y la noticia de que su cuota diaria del plan Google AI Pro se evaporó tras apenas dos generaciones.

Las pruebas que circularon desde el 11 de mayo muestran un salto cualitativo respecto a Veo 3.1, el modelo actual que potencia las funciones de video dentro de Gemini. En una de las demos, un profesor escribe en un pizarrón una demostración matemática que se mantiene legible y coherente cuadro a cuadro —algo que tropezó a casi todos los generadores hasta hoy—. En otra, dos hombres cenan junto al mar: ahí Omni todavía falla con objetos que aparecen de la nada y micro-inconsistencias en las manos, ese clásico talón de Aquiles de la IA generativa. Pero el conjunto basta para que medios como Android Authority y Hipertextual lo describan como «el sustituto de Veo con resultados nunca antes vistos».

Qué cambia respecto a Veo 3.1

Según los metadatos analizados por el periodista Max Weinbach, Omni es técnicamente una extensión de Veo, pero con dos saltos importantes: genera audio espacial en la misma pasada que el video —sin pipelines separados— y permite editar o «remixar» escenas existentes desde el chat de Gemini con instrucciones en lenguaje natural («cambiame el fondo a un atardecer», «que el personaje hable más rápido»). Esa lógica conversacional es la apuesta que diferencia a Google de Sora 2 de OpenAI y de Runway Gen-4: el video deja de ser un output cerrado y se vuelve un objeto que se conversa.

La filtración encaja con una estrategia que Google ya había insinuado en The Android Show, su preview oficial del lunes 12 de mayo, donde la compañía habló de «IA agentiva»: modelos capaces de ejecutar tareas complejas a través de varias aplicaciones con mínima intervención del usuario. Omni sería la pieza audiovisual de ese rompecabezas.

El contexto: Google contra OpenAI, otra vez

El timing no es casual. OpenAI lanzó GPT-5.5 el 23 de abril y su versión Instant el 5 de mayo, mientras Microsoft soltó sus primeros tres modelos propios bajo la marca MAI para reducir su dependencia de OpenAI. Google llega al I/O con la presión de demostrar que sigue en la pelea por el modelo de frontera y que su tesis multimodal —un solo sistema para texto, imagen, audio y video— es más sólida que la de sus rivales. Que Omni se filtrara una semana antes del keynote, sea por descuido o por una «filtración intencional» para calentar la previa, juega a favor de Mountain View.

El cierre

El martes 19 sabremos si Omni es realmente un modelo nuevo, una marca paraguas o una versión refinada de Veo 4. Pero, anuncio formal mediante, el mensaje ya está mandado: el próximo round de la guerra de IA se va a jugar en el video, y Google quiere mostrarse listo para pelearlo.

THE POST

Gemini Omni: Google filtra su nueva IA de video días antes del I/O

Fuentes

Relacionado

Deja una respuesta Cancelar la respuesta