Manus ahora forma parte de Meta, llevando la IA a empresas en todo el mundo

Otro·viernes, marzo 06

Probé Google Veo 3 y aquí está mi reseña honesta

Como redactor de contenido en Manus, probar nuevas herramientas de AI es básicamente parte de la descripción del trabajo. Cuando Google Veo 3 salió, internet colectivamente perdió la cabeza con las demostraciones. Cabezas parlantes realistas, audio sincronizado, visuales cinematográficos, todo a partir de un único texto de entrada. He visto suficientes ciclos de exageración de AI para saber que las demostraciones están curadas y los resultados en el mundo real son una historia completamente diferente.
Así que decidí pasar un tiempo usando realmente Google Veo 3, poniéndolo a prueba con cuatro entradas distintas diseñadas para llevarlo al límite y documentando todo de manera honesta.
Esto no es un resumen de los materiales de marketing de Google. Esta es una reseña práctica de Google Veo 3 basada en mi experiencia real, incluyendo las partes que me impresionaron, las partes que me frustraron y las partes que simplemente no funcionaron. Al final de este artículo, sabrás exactamente en qué es bueno Veo 3, dónde falla, si vale la pena el precio y cómo se compara con la competencia.


¿Qué es Google Veo 3? (¿Y qué hay de nuevo en Veo 3.1?)

Google Veo 3 es un modelo avanzado de generación de video con AI que crea clips de video de alta calidad a partir de un único texto de entrada. Soporta diálogo sincronizado, efectos de sonido ambiental y música de fondo, todo desde una sola entrada, y rápidamente se ha ganado la reputación de producir algunas de las imágenes de cabezas parlantes generadas por AI más realistas que existen.
Veo 3 fue anunciado por primera vez en Google I/O alrededor de mediados de 2025 y rápidamente se convirtió en uno de los generadores de video con AI más comentados del año. La actualización más reciente, Veo 3.1, trajo mejoras significativas: mejor estabilidad, sincronización labial más precisa, generación de personajes más consistente y escalado a 1080p y 4K. Es accesible a través de algunos productos de Google: Google Flow, una herramienta de creación cinematográfica de nivel profesional diseñada para editar y secuenciar escenas más largas y complejas, y Google Whisk, una herramienta experimental enfocada en la generación rápida de imágenes a video y clips cortos. Para esta reseña, probé a través de la aplicación Gemini, donde simplemente seleccioné la opción "Crear video" y ejecuté las cuatro entradas desde allí.


Mi proceso de prueba práctica

Para hacer una prueba adecuada, no quería simplemente lanzar entradas simples y darlo por terminado. Pedí a Manus que me ayudara a diseñar cuatro entradas específicas para evaluar diferentes capacidades: diálogo y sincronización labial, atmósfera cinematográfica, consistencia de productos y acción rápida. Así fue como realmente se desarrolló el proceso.

Cómo obtuve acceso (y cómo puedes hacerlo tú también)

Obtener acceso a Veo 3 es sinceramente un poco confuso al principio, y creo que vale la pena explicarlo porque es un punto de dolor común.
Captura de pantalla de la interfaz de cuenta gratuita de Gemini

Comencé con la cuenta gratuita. La interfaz es bastante genérica, similar a otras herramientas de AI, con un cuadro de entrada y algunas opciones de herramientas para elegir. No había ninguna opción visible de generación de video. Intenté ingresar mi primera entrada de todos modos, solo para ver qué pasaba.
Captura de pantalla de Gemini devolviendo una imagen en lugar de un video

Lo que obtuve fue una imagen, no un video. La imagen era realmente impresionante y coincidía bien con la entrada, pero claramente no era lo que había pedido. Luego intenté pedir explícitamente a Gemini que creara un video para mí, pensando que tal vez había malinterpretado mi intención. La respuesta que obtuve fue: "Puedo crear ese video para ti hoy si actualizas tu suscripción."
Captura de pantalla del mensaje de actualización

Así que fui a mirar los planes de pago.
Aquí está el desglose actual de lo que ofrece cada plan para la generación de video:
Plan
Precio Mensual
Créditos de AI
Acceso a Veo 3.1
Gratis
$0
50 créditos diarios
Acceso limitado a Flow, Animate y generación de imágenes
Google AI Plus
$7.99/mes
200 créditos mensuales
Más acceso a Flow y generación de imágenes a video en Whisk
Google AI Pro
$19.99/mes
1,000 créditos mensuales
Mayor acceso a Flow y Whisk
Google AI Ultra
$249.99/mes
25,000 créditos mensuales
Máximo acceso a Flow y Whisk
La redacción de los planes es vaga. Google AI Plus dice "más acceso a la creación de imágenes a video con Veo 3" y Google AI Pro dice "mayor acceso." No está exactamente claro qué es lo que realmente obtienes. Elegí Google AI Plus primero, ya que era el siguiente nivel y parecía que funcionaría. Pagué, me suscribí, ¡y listo! En el plan Plus, pude ver la adición de la opción "Crear Video" que antes no estaba disponible en el plan gratuito.
Plan Gemini Plus con la opción "Crear Video" ahora visible



Las 4 entradas que usé para probar los límites de Veo 3

Aquí están las cuatro entradas que preparé para probar diferentes aspectos de las capacidades de Veo 3:
1.La prueba de diálogo y sincronización labial — Para evaluar la función principal de audio nativo con diálogo sincronizado.
2.La prueba cinematográfica y atmosférica — Para evaluar qué tan bien maneja estilos visuales complejos y dirección de cámara.
3.La prueba de consistencia de productos y objetos — Para verificar si puede producir videos de productos limpios y profesionales.
4.La prueba de acción y movimiento — Para ver cómo maneja movimientos rápidos, trabajo de cámara dinámico y audio en capas.


Los resultados: 4 ejemplos de video de Veo 3 (lo bueno, lo malo y lo defectuoso)

Entrada #1: La prueba de diálogo y sincronización labial

Entrada utilizada: "Plano medio de una historiadora de unos 40 años, con gafas, sentada en una biblioteca cálida y bien iluminada. Mira directamente a la cámara, hablando con un tono reflexivo y cautivador. Dice: 'Lo que la mayoría de la gente no se da cuenta sobre el Imperio Romano es que su colapso no fue un solo evento, sino un desmoronamiento lento y complejo a lo largo de siglos.' Ruido ambiental: el suave crujir de páginas al pasar y el zumbido suave del aire acondicionado de la biblioteca. Estilo: Entrevista documental, grabada con una cámara digital de alta calidad."

Mi experiencia: Ok, este realmente me dejó impresionado. El proceso fue fluido y el video estuvo listo en minutos. Historia real: mientras se generaba, cambié de pestaña para hacer otras cosas. Cuando volví y vi el resultado, realmente pensé que había aparecido un anuncio aleatorio en mi pantalla. Se veía tan realista. La historiadora, la iluminación, el tono… todo estaba perfectamente logrado. Hablaba con inflexiones naturales, pausas y énfasis. ¿Sus expresiones faciales y gestos con las manos? Perfectos. Era digno de una entrevista documental.
Las únicas cosas que se sintieron un poco fuera de lugar fueron las motas de polvo agresivas flotando en la luz del sol, que eran un poco distrayentes. Y aunque pedí sonidos ambientales de biblioteca, el modelo me dio una pista de música de fondo sutil en su lugar. Pero, honestamente, fue una decisión ejecutiva inteligente. La música encajaba perfectamente con el estilo documental, tal vez incluso mejor de lo que había pedido. ¡Qué comienzo!
Lo que me gustó
Lo que no me gustó
Personaje increíblemente realista y natural
Las motas de polvo en la luz del sol eran un poco distrayentes
Sincronización labial perfecta con inflexiones naturales del habla
Ignoró la solicitud específica de sonido ambiental (pero tomó una buena decisión)
Capturó perfectamente el estilo de entrevista documental



Entrada #2: La prueba cinematográfica y atmosférica

Entrada utilizada: "Toma dolly moviéndose lentamente hacia atrás, revelando a un astronauta solitario de pie en el borde de un cráter en Marte. El cielo es de un naranja rojizo polvoriento con dos pequeñas lunas visibles. El ambiente es desolado y silencioso. Estilo: Ciencia ficción épica, 4K, lente gran angular, extremadamente detallado, estado de ánimo impresionante y melancólico."

Mi experiencia: Este fue… una mezcla. Lo primero que llamó mi atención fue el reflejo en el casco del astronauta. Había pedido un reflejo tenue de la Tierra, pero lo que obtuve fue una extraña franja distorsionada del rostro de un hombre. Se veía completamente fuera de lugar, como un extraño error donde las capas de transparencia y dimensiones estaban todas mal. ¿Se suponía que era el rostro del propio astronauta? ¡Quién sabe! Simplemente parecía pegado.
Todo lo demás no estuvo mal. El traje, el cráter, el movimiento de la cámara, todo sólido. Los detalles de polvo y niebla de arena eran realmente súper realistas. Pero la entrada pedía dos pequeñas lunas, y el cielo mostraba lo que parecían tres planetas de diferentes tamaños. Es una pena lo del rostro distorsionado, porque sin eso, esto habría sido impresionante. Con la generación de video con AI, a veces se gana, a veces se pierde. El modelo agregó un sol, estrellas y niebla en movimiento, lo cual funcionó. ¿El rostro extra y el planeta? No tanto.
Lo que me gustó
Lo que no me gustó
Buena ejecución del movimiento de cámara dolly
Gran error con el rostro distorsionado en el reflejo del casco
Detalles realistas de polvo y niebla de arena
No siguió la instrucción de "dos lunas"
Capturó bien el estado de ánimo desolado y épico de ciencia ficción
El traje del astronauta carecía de algunos detalles finos


Entrada #3: La prueba de consistencia de productos y objetos

Entrada utilizada: "Toma giratoria de una tetera de cerámica de diseño elegante y de alta gama. La tetera es de un blanco mate minimalista, colocada sobre una superficie gris claro y lisa. La cámara gira lentamente 360 grados alrededor de la tetera. Estilo: Comercial de producto limpio, iluminación de estudio, sombras suaves, lente macro, enfoque extremadamente nítido, sin distracciones de fondo."

Mi experiencia: Este fue simplemente… aceptable. No particularmente impresionante. El modelo me dio la interpretación más básica y literal de la entrada. Pedí una tetera "de diseño elegante y de alta gama," y me dio una tetera de cerámica de aspecto tradicional y simple. El ángulo de la cámara era correcto, pero la superficie era blanca en lugar del gris claro que había especificado. ¿Cómo puede equivocarse con una entrada tan simple?
Lo que realmente me molestó fue el enfoque. Específicamente pedí "enfoque extremadamente nítido," pero la tetera estaba borrosa, con bordes poco definidos, como si fuera parte del fondo. Para un comercial de producto, eso no tiene sentido. Para empeorar las cosas, cuando la tetera giraba, el asa quedaba fuera del encuadre. El modelo ni siquiera pudo mantener visible el único objeto en la toma. Para una demostración de producto, eso es un gran fallo.
Lo que me gustó
Lo que no me gustó
Ángulo de cámara y movimiento de rotación correctos
El diseño de la tetera era simple y poco inspirado
Configuración de fondo e iluminación mayormente correcta
El video estaba borroso y desenfocado
La rotación de 360 grados fue suave
El producto se cortó durante la rotación


Entrada #4: La prueba de acción y movimiento

Entrada utilizada: "Toma POV de cámara en mano de alguien corriendo por un mercado nocturno vibrante y concurrido en Bangkok. La cámara tiembla mientras esquiva entre personas y puestos de comida. Vapor se eleva de los woks, y linternas coloridas cuelgan sobre la cabeza. Efectos de sonido: una cacofonía de sonidos del mercado — gente hablando, comida chisporroteando, música distante. El corredor ocasionalmente mira por encima del hombro, respirando con dificultad. Estilo: Película de acción intensa, realista, inmersiva, con movimiento ligeramente borroso."

Mi experiencia: Esto no fue lo que esperaba, y no en el buen sentido. El video comenzó con un personaje gritando "¡Quítate del camino!" y un efecto de sonido de un golpe, lo que inmediatamente lo convirtió en una escena de escape agresiva que nunca pedí. El mercado estaba concurrido, pero algo estaba muy mal. Todos estaban parados en líneas perfectamente rectas y ordenadas, y nadie se movía. ¿Alguna vez has visto un mercado concurrido que se vea así? Era completamente antinatural.
El corredor nunca miró por encima del hombro, una acción específica que solicité. El audio también era un desastre. El único sonido que estaba bien era la respiración pesada del corredor. El resto de los sonidos del mercado eran demasiado distantes y silenciosos, cuando deberían haber sido una cacofonía cercana e inmersiva. Los letreros eran una mezcla de tailandés y chino, haciendo que se sintiera como un "mercado asiático" genérico en lugar de específicamente Bangkok. Este simplemente gritaba "generado por AI."
Lo que me gustó
Lo que no me gustó
El sonido de la respiración del corredor era realista
Se añadieron diálogos y efectos de sonido no deseados
La sensación de cámara en mano estaba algo presente
La multitud estaba estática y completamente antinatural
La iluminación y los colores del mercado eran vibrantes
El escenario se sentía genérico, no específico de Bangkok


La función que lo cambia todo: audio nativo y sincronización labial

A pesar de los resultados inconsistentes en mis cuatro pruebas, el éxito de la Entrada #1 realmente destaca por qué Veo 3 está recibiendo tanta atención. La calidad de la sincronización labial es donde realmente brilla. Cuando funciona, como lo hizo en mi prueba de historiadora, el resultado es lo suficientemente convincente como para confundirse con metraje real. El modelo no solo coincide con los movimientos de la boca con las palabras; genera patrones de habla naturales con inflexiones, pausas y énfasis. También toma decisiones creativas sobre el audio, como elegir música de fondo en lugar de ruido ambiental cuando beneficia a la escena. Ese tipo de inteligencia contextual de audio es lo que marca la diferencia entre un clip que parece generado por AI y uno que realmente se sostiene.


Las partes molestas: límites diarios, renderizado lento y fallos extraños

Aquí es donde tengo que ser honesto sobre las frustraciones, porque hubo varias.
Los límites diarios de generación fueron un verdadero problema. Después de generar solo dos videos en el plan Google AI Plus, me topé con un muro. Apareció este mensaje.
Mensaje de límite diario alcanzado

Aquí es donde el lenguaje vago de "más acceso" y "mayor acceso" en las páginas de planes se convierte en un problema real. Tuve que actualizar nuevamente al plan Google AI Pro para continuar con mis pruebas. Eso son dos actualizaciones pagadas solo para ejecutar cuatro entradas.
Y luego están los fallos. El rostro distorsionado en el reflejo del casco del astronauta, el planeta extra en el cielo, el diálogo añadido en la escena del mercado de Bangkok. Estos son los tipos de artefactos visuales y de audio que pueden hacer que un resultado impresionante sea completamente inutilizable si lo que buscas es realismo. Las limitaciones de Veo 3 como estas valen la pena tener en cuenta antes de comprometerse con un plan de pago.


¿Vale la pena Google Veo 3? Mi veredicto honesto

Después de estas rondas de pruebas, aquí es donde me posiciono sobre si Google Veo 3 vale la pena.
Para contenido con mucho diálogo, específicamente videos de cabezas parlantes, entrevistas estilo documental o cualquier escena donde un personaje hable directamente a la cámara, Veo 3 es una de las mejores herramientas disponibles en este momento. La calidad de la sincronización labial y la generación de habla natural son genuinamente impresionantes y difíciles de igualar. Si ese es tu caso de uso principal, el plan Google AI Pro a $19.99 al mes es una inversión razonable.
Para todo lo demás, es más una apuesta. La prueba de demostración de producto fue decepcionante, la secuencia de acción fue un desastre, y la prueba cinematográfica tuvo un fallo que hizo que el resultado fuera inutilizable. Los límites diarios son frustrantes, especialmente en los planes de nivel inferior, y los tiempos de renderizado ralentizan las cosas. Si eres un creador individual experimentando con video AI, vale la pena intentarlo. Si eres una agencia o equipo de producción que necesita resultados consistentes y confiables a escala, las limitaciones podrían superar los beneficios por ahora.
La conclusión: Veo 3 es genuinamente impresionante en las condiciones adecuadas, pero aún no es el generador de video todo propósito y confiable que las demostraciones sugieren. Es una herramienta poderosa con un punto fuerte específico, y conocer ese punto fuerte antes de suscribirte te ahorrará mucha frustración.


Cómo Manus puede potenciar tu flujo de trabajo de video AI

Generar clips es solo una parte del proceso. Un proyecto de video terminado requiere generar ideas, escribir guiones y entradas, organizar activos y crear el contenido circundante: las publicaciones de blog, subtítulos sociales y descripciones de video que realmente hacen que tu contenido sea visto. Ahí es donde entra Manus.
Usé Manus durante todo este proceso de reseña: para planificar mi enfoque de prueba, estructurar las cuatro entradas y consolidar mis notas y hallazgos en algo coherente antes de escribir. Tener una herramienta que te ayude a organizar tu pensamiento antes de poner palabras en una página marca una verdadera diferencia, especialmente cuando estás manejando múltiples resultados de prueba y tratando de compararlos de manera justa. Si estás construyendo un flujo de trabajo de contenido de video, vale la pena tener un agente AI en tu esquina para el trabajo circundante. Puedes probar Manus gratis en manus.im.


Preguntas frecuentes

¿Cómo puedo obtener acceso a Google Veo 3?

Puedes acceder a Google Veo 3 a través de la aplicación Gemini suscribiéndote a uno de los planes de AI pagos de Google. El plan Google AI Plus ($7.99/mes) proporciona acceso limitado, mientras que el plan Google AI Pro ($19.99/mes) desbloquea la generación de video con Veo 3.1 Fast. El acceso completo con los límites más altos está disponible en el plan Google AI Ultra ($249.99/mes).

¿Hay una versión gratuita de Google Veo 3?

No hay una versión gratuita dedicada de Veo 3. El plan gratuito de Google AI tiene acceso muy limitado y no soporta la generación directa de video a través de la aplicación Gemini. Los usuarios gratuitos pueden tener acceso limitado a través de Google Flow, pero para la generación práctica de video necesitarás un plan pago.

¿Cuáles son las limitaciones de Google Veo 3?

Las principales limitaciones de Veo 3 incluyen límites diarios de generación (incluso en planes pagos), tiempos de renderizado lentos de alrededor de 3-5 minutos por clip, una longitud máxima de video de 8 segundos, fallos visuales y de audio ocasionales, e inconsistencias con escenas complejas de múltiples elementos. La consistencia de objetos en tomas de productos y el comportamiento de personajes en secuencias de acción también son áreas donde puede fallar.

¿Puede Google Veo 3 crear videos de más de 8 segundos?

No, la versión actual de Google Veo 3 genera clips de hasta 8 segundos de duración. Para contenido más largo, necesitarías generar múltiples clips y editarlos juntos en una herramienta como Google Flow o un editor de video estándar.

¿Es Google Veo 3 mejor que Sora de OpenAI?

Depende de lo que necesites. Veo 3 tiene una clara ventaja en realismo de diálogo y sincronización labial, lo que lo convierte en la mejor opción para contenido de cabezas parlantes o estilo entrevista. Sora 2 generalmente funciona mejor para escenas narrativas más largas y tiene un comportamiento de personajes más consistente en entradas complejas. Para la mayoría de los creadores, la elección depende de tu caso de uso principal.