J'ai testé Google Veo 3 et voici mon avis honnête

En tant que rédacteur de contenu chez Manus, tester de nouveaux outils d'AI fait essentiellement partie de la description du poste. Lorsque Google Veo 3 est sorti, Internet a collectivement perdu la tête face aux démonstrations. Des têtes parlantes réalistes, un audio synchronisé, des visuels cinématographiques, tout cela à partir d'un simple prompt textuel. J'ai vu suffisamment de cycles de battage médiatique autour de l'AI pour savoir que les démonstrations sont soigneusement préparées et que les résultats dans le monde réel sont une toute autre histoire.
J'ai donc décidé de passer un peu de temps à utiliser réellement Google Veo 3, en le testant avec quatre prompts distincts conçus pour repousser ses limites, et en documentant tout honnêtement.
Ce n'est pas un résumé des supports marketing de Google. C'est un test pratique de Google Veo 3 basé sur ma véritable expérience, y compris les aspects qui m'ont impressionné, ceux qui m'ont frustré, et ceux qui n'ont tout simplement pas fonctionné. À la fin de cet article, vous saurez exactement dans quels domaines Veo 3 excelle, où il est défaillant, s'il vaut son prix, et comment il se compare à la concurrence.
Qu'est-ce que Google Veo 3 ? (Et quelles sont les nouveautés de Veo 3.1 ?)
Google Veo 3 est un modèle avancé de génération vidéo par AI qui crée des clips vidéo de haute qualité à partir d'un simple prompt textuel. Il prend en charge les dialogues synchronisés, les effets sonores ambiants et la musique de fond, tout cela à partir d'un seul prompt, et s'est rapidement forgé une réputation pour produire certaines des séquences de têtes parlantes générées par AI les plus réalistes.
Veo 3 a été annoncé pour la première fois lors de Google I/O vers la mi-2025 et est rapidement devenu l'un des générateurs vidéo par AI les plus discutés de l'année. La mise à jour la plus récente, Veo 3.1, a apporté des améliorations significatives : meilleure stabilité, synchronisation labiale plus précise, génération de personnages plus cohérente, et mise à l'échelle en 1080p et 4K. Il est accessible via quelques produits Google — Google Flow, un outil de réalisation de films de qualité professionnelle conçu pour le montage et la séquence de scènes plus longues et complexes, et Google Whisk, un outil expérimental axé sur la génération rapide d'images en vidéos et de clips courts. Pour cet examen, j'ai testé via l'application Gemini, où j'ai simplement sélectionné l'option "Créer une vidéo" et exécuté les quatre prompts à partir de là.
Mon processus de test pratique
Pour effectuer un test approprié, je ne voulais pas simplement lancer des prompts simples et en rester là. J'ai demandé à Manus de m'aider à concevoir quatre prompts spécifiques pour évaluer différentes capacités : dialogue et synchronisation labiale, atmosphère cinématographique, cohérence des produits, et action rapide. Voici comment ce processus s'est réellement déroulé.
Comment j'ai obtenu l'accès (et comment vous pouvez aussi)
Obtenir l'accès à Veo 3 est honnêtement un peu déroutant au début, et je pense que cela vaut la peine d'en parler car c'est un point de douleur commun.

J'ai commencé avec le compte gratuit. L'interface est assez générique, similaire à d'autres outils d'AI, avec une boîte de saisie de prompt et quelques options d'outils à choisir. Il n'y avait aucune option de génération vidéo visible nulle part. J'ai quand même essayé de saisir mon premier prompt, juste pour voir ce qui se passerait.

Ce que j'ai obtenu était une image, pas une vidéo. L'image était en fait impressionnante et correspondait bien au prompt, mais ce n'était clairement pas ce que j'avais demandé. J'ai ensuite essayé de demander explicitement à Gemini de créer une vidéo pour moi, pensant qu'il avait peut-être mal interprété mon intention. La réponse que j'ai reçue était : "Je peux créer cette vidéo pour vous aujourd'hui si vous mettez à niveau votre abonnement."

Je suis donc allé voir les plans payants.
Voici la répartition actuelle de ce que chaque plan offre pour la génération vidéo :
Plan | Prix mensuel | Crédits AI | Accès à Veo 3.1 |
Gratuit | 0 $ | 50 crédits quotidiens | Accès limité à Flow, Animate et générer des images |
Google AI Plus | 7,99 $/mois | 200 crédits mensuels | Plus d'accès à Flow et à la génération d'images en vidéos sur Whisk |
Google AI Pro | 19,99 $/mois | 1 000 crédits mensuels | Accès supérieur à Flow et Whisk |
Google AI Ultra | 249,99 $/mois | 25 000 crédits mensuels | Accès maximal à Flow et Whisk |
Le libellé des plans est vague. Google AI Plus indique "plus d'accès à la création d'images en vidéos avec Veo 3" et Google AI Pro indique "accès supérieur." Pas exactement clair sur ce que vous obtenez réellement. J'ai d'abord opté pour Google AI Plus, car c'était le niveau supérieur suivant et semblait convenir. J'ai payé, souscrit, et c'était parti ! Avec le plan Plus, je pouvais voir l'ajout de l'option "Créer une vidéo" qui n'était pas disponible auparavant avec le plan gratuit.

Les 4 prompts que j'ai utilisés pour tester les limites de Veo 3
Voici les quatre prompts que j'ai préparés pour tester différents aspects des capacités de Veo 3 :
1.Le test de dialogue et de synchronisation labiale — Pour évaluer la fonctionnalité audio native avec dialogue synchronisé.
2.Le test cinématographique et atmosphérique — Pour évaluer sa capacité à gérer des styles visuels complexes et des directions de caméra.
3.Le test de cohérence des produits et objets — Pour vérifier s'il peut produire des vidéos de produits propres et professionnelles.
4.Le test d'action et de mouvement — Pour voir comment il gère les mouvements rapides, le travail de caméra dynamique et les couches audio.
Les résultats : 4 exemples vidéo de Veo 3 (le bon, le mauvais et le glitché)
Prompt n°1 : Le test de dialogue et de synchronisation labiale
Prompt utilisé : "Plan rapproché moyen d'une historienne dans la quarantaine, portant des lunettes, assise dans une bibliothèque chaleureusement éclairée. Elle regarde directement la caméra, parlant d'un ton réfléchi et engageant. Elle dit : 'Ce que la plupart des gens ne réalisent pas à propos de l'Empire romain, c'est que son effondrement n'était pas un événement unique, mais un effondrement lent et complexe sur plusieurs siècles.' Bruit ambiant : le doux bruissement des pages tournées et le léger bourdonnement de la climatisation de la bibliothèque. Style : Interview documentaire, filmé avec une caméra numérique de haute qualité."
Mon expérience : Franchement, j'ai été vraiment impressionné par celui-ci. Le processus était fluide, et la vidéo était prête en quelques minutes. Anecdote : pendant qu'elle se générait, j'ai changé d'onglet pour faire d'autres choses. Quand je suis revenu et que j'ai vu le résultat, j'ai vraiment cru qu'une publicité aléatoire avait surgi sur mon écran. C'était tellement réaliste. L'historienne, l'éclairage, le ton… tout était parfait. Elle parlait avec des inflexions naturelles, des pauses et des accents. Ses expressions faciales et ses gestes de la main ? Parfaits. C'était vraiment digne d'une interview documentaire.
Les seules choses qui semblaient un peu décalées étaient les particules de poussière flottant dans la lumière du soleil, qui étaient un peu distrayantes. Et bien que j'aie demandé des sons ambiants de bibliothèque, le modèle m'a donné une piste musicale subtile en arrière-plan à la place. Mais honnêtement ? C'était une décision intelligente. La musique correspondait parfaitement au style documentaire, peut-être même mieux que ce que j'avais demandé. Quel début !
Ce que j'ai aimé | Ce que je n'ai pas aimé |
Personnage incroyablement réaliste et naturel | Les particules de poussière dans la lumière du soleil étaient un peu distrayantes |
Synchronisation labiale parfaite avec des inflexions naturelles | A ignoré la demande spécifique de son ambiant (mais a fait un bon choix) |
Style d'interview documentaire parfaitement capturé | |
Prompt n°2 : Le test cinématographique et atmosphérique
Prompt utilisé : "Plan travelling arrière révélant un astronaute solitaire debout sur la crête d'un cratère sur Mars. Le ciel est poussiéreux, rouge-orangé avec deux petites lunes visibles. Le décor est désolé et silencieux. Style : Science-fiction épique, 4K, objectif grand angle, extrêmement détaillé, ambiance inspirante et mélancolique."
Mon expérience : Celui-ci était… mitigé. La première chose qui a attiré mon attention était le reflet dans le casque de l'astronaute. J'avais demandé un léger reflet de la Terre, mais ce que j'ai obtenu était une étrange tranche déformée du visage d'un homme. Cela semblait complètement décalé, comme un bug bizarre où les couches de transparence et les dimensions étaient toutes fausses. Était-ce censé être le visage de l'astronaute lui-même ? Qui sait ! Cela semblait juste collé.
Tout le reste n'était pas mauvais. La combinaison, le cratère, le mouvement de la caméra, tout était solide. Les détails de la poussière et du brouillard de sable étaient en fait super réalistes. Mais le prompt demandait deux petites lunes, et le ciel montrait ce qui ressemblait à trois planètes de tailles différentes. C'est dommage pour le visage glitché, car sans cela, cela aurait été impressionnant. Avec la génération vidéo par AI, on gagne parfois, on perd parfois. Le modèle a ajouté un soleil, des étoiles et un brouillard en mouvement, ce qui fonctionnait. Le visage supplémentaire et la planète ? Pas vraiment.
Ce que j'ai aimé | Ce que je n'ai pas aimé |
Bonne exécution du mouvement de caméra travelling | Gros bug avec le visage déformé dans le reflet du casque |
Détails réalistes de la poussière et du brouillard de sable | N'a pas suivi l'instruction des "deux lunes" |
Ambiance désolée et épique de science-fiction bien capturée | La combinaison de l'astronaute manquait de détails fins |
Prompt n°3 : Le test de cohérence des produits et objets
Prompt utilisé : "Plan tournant d'une théière en céramique haut de gamme et magnifiquement conçue. La théière est d'un blanc mat minimaliste, posée sur une surface grise claire et simple. La caméra tourne lentement à 360 degrés autour de la théière. Style : Publicité de produit propre, éclairage de studio, ombres douces, objectif macro, mise au point extrêmement nette, sans distractions en arrière-plan."
Mon expérience : Celui-ci était juste… correct. Pas particulièrement impressionnant. Le modèle m'a donné l'interprétation la plus basique et littérale du prompt. J'avais demandé une théière "haut de gamme et magnifiquement conçue", et il m'a donné une théière en céramique d'apparence traditionnelle et simple. L'angle de la caméra était correct, mais la surface était blanche au lieu du gris clair que j'avais spécifié. Comment peut-il se tromper avec un prompt aussi simple ?
Ce qui m'a vraiment dérangé, c'était la mise au point. J'avais spécifiquement demandé une "mise au point extrêmement nette", mais la théière était floue, avec des bords non nets, comme si elle faisait partie de l'arrière-plan. Pour une publicité de produit, cela n'a aucun sens. Pour aggraver les choses, lorsque la théière tournait, la poignée était coupée hors du cadre. Le modèle n'a même pas pu garder l'unique objet dans le plan entièrement visible. Pour une démonstration de produit, c'est un échec majeur.
Ce que j'ai aimé | Ce que je n'ai pas aimé |
Angle de caméra et mouvement de rotation corrects | Design de la théière simple et peu inspiré |
Configuration de l'arrière-plan et de l'éclairage principalement correcte | Vidéo floue et hors de mise au point |
La rotation à 360 degrés était fluide | Le produit était coupé pendant la rotation |
Prompt n°4 : Le test d'action et de mouvement
Prompt utilisé : "Plan subjectif à la première personne de quelqu'un courant à travers un marché de nuit animé et vibrant à Bangkok. La caméra est tremblante alors qu'ils se faufilent entre les gens et les stands de nourriture. De la vapeur s'élève des woks, et des lanternes colorées sont suspendues au-dessus. Effets sonores : une cacophonie de sons de marché — des gens qui parlent, des aliments qui grésillent, de la musique lointaine. Le coureur jette occasionnellement un coup d'œil par-dessus son épaule, respirant lourdement. Style : Film d'action réaliste, immersif, légèrement flou."
Mon expérience : Ce n'était pas ce à quoi je m'attendais, et pas dans le bon sens du terme. La vidéo s'ouvrait avec un personnage criant "Dégagez du chemin !" et un effet sonore de coup de poing aléatoire, ce qui l'a immédiatement transformée en une scène d'évasion agressive que je n'avais jamais demandée. Le marché était bondé, mais quelque chose n'allait pas. Tout le monde était debout dans des lignes parfaitement droites et ordonnées, et personne ne bougeait. Avez-vous déjà vu un marché animé qui ressemble à ça ? C'était complètement irréaliste.
Le coureur n'a jamais jeté un coup d'œil par-dessus son épaule, une action spécifique que j'avais demandée. L'audio était également un désastre. Le seul son qui était correct était la respiration lourde du coureur. Le reste des sons du marché était trop lointain et silencieux, alors qu'ils auraient dû être une cacophonie proche et immersive. Les panneaux étaient un mélange de thaï et de chinois, ce qui donnait l'impression d'un "marché asiatique" générique au lieu de spécifiquement Bangkok. Celui-ci criait juste "généré par AI."
Ce que j'ai aimé | Ce que je n'ai pas aimé |
Le son de la respiration du coureur était réaliste | Dialogue et effets sonores indésirables ajoutés |
La sensation de caméra à main levée était quelque peu présente | La foule était statique et complètement irréaliste |
L'éclairage et les couleurs du marché étaient vibrants | Le décor semblait générique, pas spécifique à Bangkok |
La fonctionnalité qui change tout : audio natif et synchronisation labiale
Malgré les résultats incohérents de mes quatre tests, le succès du Prompt n°1 met vraiment en évidence pourquoi Veo 3 attire autant d'attention. La qualité de la synchronisation labiale est là où il brille vraiment. Lorsqu'il fonctionne, comme dans mon test de l'historienne, le résultat est suffisamment convaincant pour être pris pour une séquence réelle. Le modèle ne se contente pas de faire correspondre les mouvements de la bouche aux mots ; il génère des schémas de discours naturels avec des inflexions, des pauses et des accents. Il prend également des décisions créatives concernant l'audio, comme choisir une musique de fond plutôt qu'un bruit ambiant lorsque cela sert mieux la scène. Ce type d'intelligence audio contextuelle fait la différence entre un clip qui semble généré par AI et un autre qui tient réellement la route.
Les parties agaçantes : limites quotidiennes, rendu lent et bugs étranges
Voici où je dois être honnête sur les frustrations, car il y en avait plusieurs.
Les limites quotidiennes de génération étaient un vrai problème. Après avoir généré seulement deux vidéos avec le plan Google AI Plus, j'ai atteint une limite. Ce message est apparu.

C'est là que le langage vague "plus d'accès" et "accès supérieur" sur les pages des plans devient un vrai problème. J'ai dû passer à nouveau au plan Google AI Pro pour continuer mes tests. Cela fait deux mises à niveau payantes juste pour exécuter quatre prompts.
Et puis il y a les bugs. Le visage déformé dans le reflet du casque de l'astronaute, la planète supplémentaire dans le ciel, le dialogue ajouté dans la scène du marché de Bangkok. Ce sont le genre d'artefacts visuels et audio qui peuvent rendre une sortie autrement impressionnante complètement inutilisable si vous recherchez du réalisme. Les limitations de Veo 3 comme celles-ci valent la peine d'être gardées à l'esprit avant de s'engager dans un plan payant.
Veo 3 de Google vaut-il son prix ? Mon verdict honnête
Après ces séries de tests, voici où j'en suis sur la question de savoir si Google Veo 3 vaut le coup.
Pour le contenu axé sur les dialogues, en particulier les vidéos de têtes parlantes, les interviews de style documentaire, ou toute scène où un personnage parle directement à la caméra, Veo 3 est l'un des meilleurs outils disponibles actuellement. La qualité de la synchronisation labiale et la génération de discours naturel sont vraiment impressionnantes et difficiles à égaler. Si c'est votre cas d'utilisation principal, le plan Google AI Pro à 19,99 $ par mois est un investissement raisonnable.
Pour tout le reste, c'est plus un pari. Le test de démonstration de produit était décevant, la séquence d'action était un désastre, et le test cinématographique avait un bug qui rendait la sortie inutilisable. Les limites quotidiennes sont frustrantes, surtout sur les plans de niveau inférieur, et les temps de rendu ralentissent les choses. Si vous êtes un créateur solo expérimentant avec la vidéo AI, cela vaut la peine d'essayer. Si vous êtes une agence ou une équipe de production qui a besoin de résultats cohérents et fiables à grande échelle, les limitations pourraient l'emporter sur les avantages pour l'instant.
En résumé : Veo 3 est vraiment impressionnant dans les bonnes conditions, mais ce n'est pas encore le générateur vidéo tout-en-un fiable que les démonstrations suggèrent. C'est un outil puissant avec un point fort spécifique, et connaître ce point fort avant de vous abonner vous évitera beaucoup de frustrations.
Comment Manus peut booster votre flux de travail vidéo AI
Générer des clips n'est qu'une partie du processus. Un projet vidéo terminé nécessite de réfléchir à des idées, d'écrire des scripts et des prompts, d'organiser des ressources, et de créer le contenu environnant — les articles de blog, les légendes sociales, et les descriptions vidéo qui permettent réellement à votre contenu d'être vu. C'est là que Manus intervient.
J'ai utilisé Manus tout au long de ce processus de test : pour planifier mon approche de test, structurer les quatre prompts, et consolider mes notes et conclusions en quelque chose de cohérent avant d'écrire. Avoir un outil qui vous aide à organiser votre réflexion avant de mettre des mots sur une page fait une réelle différence, surtout lorsque vous jonglez avec plusieurs sorties de test et essayez de les comparer équitablement. Si vous construisez un flux de travail de contenu vidéo, cela vaut la peine d'avoir un agent AI à vos côtés pour le travail environnant. Vous pouvez essayer Manus gratuitement sur manus.im.
Questions fréquemment posées
Comment puis-je accéder à Google Veo 3 ?
Vous pouvez accéder à Google Veo 3 via l'application Gemini en souscrivant à l'un des plans AI payants de Google. Le plan Google AI Plus (7,99 $/mois) offre un accès limité, tandis que le plan Google AI Pro (19,99 $/mois) débloque la génération vidéo avec Veo 3.1 Fast. Un accès complet avec les limites les plus élevées est disponible sur le plan Google AI Ultra (249,99 $/mois).
Existe-t-il une version gratuite de Google Veo 3 ?
Il n'existe pas de version gratuite dédiée de Veo 3. Le plan gratuit de Google AI offre un accès très limité et ne prend pas en charge la génération vidéo directe via l'application Gemini. Les utilisateurs gratuits peuvent avoir un accès limité via Google Flow, mais pour une génération vidéo pratique, vous aurez besoin d'un plan payant.
Quelles sont les limitations de Google Veo 3 ?
Les principales limitations de Veo 3 incluent des limites quotidiennes de génération (même sur les plans payants), des temps de rendu lents d'environ 3 à 5 minutes par clip, une longueur maximale de vidéo de 8 secondes, des bugs visuels et des incohérences occasionnelles, et des difficultés avec des scènes complexes à plusieurs éléments. La cohérence des objets dans les prises de produits et le comportement des personnages dans les séquences d'action sont également des domaines où il peut être défaillant.
Google Veo 3 peut-il créer des vidéos de plus de 8 secondes ?
Non, la version actuelle de Google Veo 3 génère des clips d'une durée maximale de 8 secondes. Pour un contenu plus long, vous devrez générer plusieurs clips et les monter ensemble dans un outil comme Google Flow ou un éditeur vidéo standard.
Google Veo 3 est-il meilleur que Sora d'OpenAI ?
Cela dépend de vos besoins. Veo 3 a un avantage clair en matière de réalisme des dialogues et de la synchronisation labiale, ce qui en fait un meilleur choix pour les contenus de type tête parlante ou interview. Sora 2 fonctionne généralement mieux pour les scènes narratives plus longues et présente un comportement des personnages plus cohérent dans les prompts complexes. Pour la plupart des créateurs, le choix dépend de votre cas d'utilisation principal.