Manus è ora parte di Meta — portando l'AI alle aziende di tutto il mondo

Altro·venerdì, marzo 06

Ho testato Google Veo 3 ed ecco la mia recensione onesta

Come content writer presso Manus, testare nuovi strumenti di AI è praticamente parte della descrizione del lavoro. Quando è stato lanciato Google Veo 3, internet è impazzito collettivamente per le demo. Teste parlanti realistiche, audio sincronizzato, immagini cinematografiche, tutto da un unico prompt testuale. Ho visto abbastanza cicli di hype sull'AI per sapere che le demo sono curate e i risultati nel mondo reale sono una storia completamente diversa.
Quindi ho deciso di dedicare un po' di tempo a utilizzare effettivamente Google Veo 3, mettendolo alla prova con quattro prompt distinti progettati per spingerlo al limite e documentando tutto onestamente.
Questa non è una sintesi dei materiali di marketing di Google. Questa è una recensione pratica di Google Veo 3 basata sulla mia esperienza reale, incluse le parti che mi hanno impressionato, quelle che mi hanno frustrato e quelle che semplicemente non hanno funzionato. Alla fine di questo articolo, saprai esattamente in cosa Veo 3 è bravo, dove fallisce, se vale il prezzo e come si confronta con la concorrenza.


Cos'è Google Veo 3? (E cosa c'è di nuovo in Veo 3.1?)

Google Veo 3 è un modello avanzato di generazione video AI che crea clip video di alta qualità da un unico prompt testuale. Supporta dialoghi sincronizzati, effetti sonori ambientali e musica di sottofondo, tutto da un unico prompt, e si è rapidamente costruito una reputazione per produrre alcune delle riprese di teste parlanti generate da AI più realistiche in circolazione.
Veo 3 è stato annunciato per la prima volta al Google I/O intorno alla metà del 2025 ed è rapidamente diventato uno dei generatori di video AI più discussi dell'anno. L'aggiornamento più recente, Veo 3.1, ha portato miglioramenti significativi: maggiore stabilità, sincronizzazione labiale più accurata, generazione di personaggi più coerente e upscaling a 1080p e 4K. È accessibile tramite alcuni prodotti Google — Google Flow, uno strumento di filmmaking di livello professionale costruito per modificare e sequenziare scene più lunghe e complesse, e Google Whisk, uno strumento sperimentale focalizzato sulla generazione rapida di immagini in video e clip brevi. Per questa recensione, ho testato tramite l'app Gemini, dove ho semplicemente selezionato il pulsante "Crea video" e ho eseguito tutti e quattro i prompt da lì.


Il mio processo di test pratico

Per dare a questo test una giusta valutazione, non volevo semplicemente lanciare prompt semplici e chiamarla una giornata. Ho chiesto a Manus di aiutarmi a progettare quattro prompt specifici per valutare diverse capacità: dialogo e sincronizzazione labiale, atmosfera cinematografica, coerenza del prodotto e azione frenetica. Ecco come è andato effettivamente il processo.

Come ho ottenuto l'accesso (e come puoi farlo anche tu)

Ottenere l'accesso a Veo 3 è onestamente un po' confuso all'inizio, e penso che valga la pena spiegarlo perché è un punto dolente comune.
Interfaccia dell'account gratuito di Gemini screenshot

Ho iniziato con l'account gratuito. L'interfaccia è piuttosto generica, simile ad altri strumenti AI, con una casella di prompt e alcuni pulsanti di strumenti tra cui scegliere. Non c'era alcuna opzione di generazione video visibile da nessuna parte. Ho provato comunque a inserire il mio primo prompt, solo per vedere cosa sarebbe successo.
Gemini ha restituito un'immagine invece di uno screenshot video

Quello che ho ottenuto è stata un'immagine, non un video. L'immagine era in realtà impressionante e corrispondeva bene al prompt, ma chiaramente non era quello che avevo chiesto. Ho quindi provato a chiedere esplicitamente a Gemini di creare un video per me, pensando che forse avesse semplicemente frainteso la mia intenzione. La risposta che ho ricevuto è stata: "Posso creare quel video per te oggi se aggiorni il tuo abbonamento."
Prompt di aggiornamento screenshot

Quindi sono andato a guardare i piani a pagamento.
Ecco la suddivisione attuale di ciò che ogni piano offre per la generazione video:
Piano
Prezzo mensile
Crediti AI
Accesso a Veo 3.1
Gratuito
$0
50 crediti giornalieri
Accesso limitato a Flow, Animate e generazione immagini
Google AI Plus
$7.99/mese
200 crediti mensili
Maggiore accesso a Flow e generazione immagini in video su Whisk
Google AI Pro
$19.99/mese
1.000 crediti mensili
Accesso più elevato a Flow e Whisk
Google AI Ultra
$249.99/mese
25.000 crediti mensili
Accesso massimo a Flow e Whisk
La formulazione sui piani è vaga. Google AI Plus dice "maggiore accesso alla creazione di immagini in video con Veo 3" e Google AI Pro dice "accesso più elevato." Non è esattamente chiaro cosa stai effettivamente ottenendo. Ho scelto Google AI Plus per primo, dato che era il livello successivo e sembrava che potesse fare al caso mio. Pagato, sottoscritto e via! Con il piano Plus, potevo vedere l'aggiunta dell'opzione "Crea Video" che prima non era disponibile con il piano gratuito.
Piano Gemini Plus con opzione "Crea Video" ora visibile



I 4 prompt che ho usato per testare i limiti di Veo 3

Ecco i quattro prompt che ho messo insieme per testare diversi aspetti delle capacità di Veo 3:
1.Il test di dialogo e sincronizzazione labiale — Per valutare la funzione audio nativa principale con dialoghi sincronizzati.
2.Il test cinematografico e atmosferico — Per valutare quanto bene gestisce stili visivi complessi e direzione della telecamera.
3.Il test di coerenza del prodotto e degli oggetti — Per verificare se può produrre video di prodotto puliti e professionali.
4.Il test di azione e movimento — Per vedere come gestisce movimenti veloci, lavoro dinamico della telecamera e audio stratificato.


I risultati: 4 esempi video di Veo 3 (Il buono, il brutto e il glitch)

Prompt #1: Il test di dialogo e sincronizzazione labiale

Prompt utilizzato: "Ripresa a mezzo busto di una storica di 40 anni, con occhiali, seduta in una biblioteca illuminata caldamente. Guarda direttamente la telecamera, parlando con un tono riflessivo e coinvolgente. Dice: 'Quello che la maggior parte delle persone non realizza sull'Impero Romano è che il suo crollo non è stato un evento singolo, ma un lento e complesso disfacimento durato secoli.' Rumore ambientale: il fruscio silenzioso delle pagine che si girano e il leggero ronzio dell'aria condizionata della biblioteca. Stile: Intervista documentaristica, girata con una telecamera digitale di alta qualità."

La mia esperienza: Ok, sono rimasto davvero sbalordito da questo. Il processo è stato fluido e il video era pronto in pochi minuti. Storia vera: mentre stava generando, ho cambiato scheda per fare altre cose. Quando sono tornato e ho visto il risultato, ho pensato che fosse apparso un annuncio casuale sul mio schermo. Sembrava così realistico. La storica, l'illuminazione, il tono… tutto era perfetto. Parlava con inflessioni naturali, pause ed enfasi. Le sue espressioni facciali e i gesti delle mani? Perfetti. Era davvero degno di un'intervista documentaristica.
Le uniche cose che sembravano un po' fuori posto erano le particelle di polvere aggressive che fluttuavano nella luce del sole, che erano un po' distraenti. E mentre avevo chiesto suoni ambientali della biblioteca, il modello mi ha dato una traccia musicale di sottofondo invece. Ma onestamente? È stata una decisione esecutiva intelligente. La musica si adattava perfettamente allo stile documentaristico, forse anche meglio di quello che avevo chiesto. Che inizio!
Cosa mi è piaciuto
Cosa non mi è piaciuto
Personaggio incredibilmente realistico e naturale
Le particelle di polvere nella luce del sole erano un po' distraenti
Sincronizzazione labiale perfetta con inflessioni naturali del discorso
Ignorata la richiesta specifica di suoni ambientali (ma ha fatto una buona scelta)
Ha catturato perfettamente lo stile dell'intervista documentaristica



Prompt #2: Il test cinematografico e atmosferico

Prompt utilizzato: "Ripresa dolly che si muove lentamente all'indietro, rivelando un astronauta solitario in piedi sul bordo di un cratere su Marte. Il cielo è polveroso, rosso-arancione con due piccole lune visibili. Il desolato e silenzioso. Stile: Fantascienza epica, 4K, obiettivo grandangolare, estremamente dettagliato, atmosfera ispiratrice e malinconica."

La mia esperienza: Questo è stato… un mix. La prima cosa che ha attirato la mia attenzione è stato il riflesso nel casco dell'astronauta. Avevo chiesto un riflesso tenue della Terra, ma quello che ho ottenuto era una strana, distorta fetta del volto di un uomo. Sembrava completamente fuori posto, come un bizzarro glitch in cui i livelli di trasparenza e dimensioni erano tutti sbagliati. Doveva essere il volto dell'astronauta? Chi lo sa! Sembrava solo incollato.
Tutto il resto non era male. La tuta, il cratere, il movimento della telecamera, tutto solido. I dettagli della polvere e della nebbia di sabbia erano in realtà super realistici. Ma il prompt chiedeva due piccole lune, e il cielo mostrava quello che sembravano tre pianeti di dimensioni diverse. È un peccato per il volto glitchato, perché senza di esso, questo sarebbe stato impressionante. Con la generazione video AI, a volte si vince, a volte si perde. Il modello ha aggiunto un sole, stelle e nebbia in movimento, che funzionavano. Il volto extra e il pianeta? Non tanto.
Cosa mi è piaciuto
Cosa non mi è piaciuto
Buona esecuzione del movimento della telecamera dolly
Glitch importante con il volto distorto nel riflesso del casco
Dettagli realistici di polvere e nebbia di sabbia
Non ha seguito l'istruzione delle "due lune"
Ha catturato bene l'atmosfera desolata, epica di fantascienza
La tuta dell'astronauta mancava di alcuni dettagli fini


Prompt #3: Il test di coerenza del prodotto e degli oggetti

Prompt utilizzato: "Ripresa a 360 gradi di una teiera in ceramica di alta qualità e dal design bellissimo. La teiera è bianca opaca minimalista, posizionata su una superficie grigia chiara e semplice. La telecamera ruota lentamente di 360 gradi attorno alla teiera. Stile: Spot pubblicitario pulito, illuminazione da studio, ombre morbide, obiettivo macro, messa a fuoco estremamente nitida, senza distrazioni di sfondo."

La mia esperienza: Questo era solo… accettabile. Non particolarmente impressionante. Il modello mi ha dato l'interpretazione più basilare e letterale del prompt. Ho chiesto una teiera "di alta qualità e dal design bellissimo", e mi ha dato una teiera in ceramica dall'aspetto tradizionale e semplice. L'angolo della telecamera era corretto, ma la superficie era bianca invece del grigio chiaro che avevo specificato. Come può sbagliare con un prompt così semplice?
Quello che mi ha davvero infastidito è stata la messa a fuoco. Ho specificamente chiesto "messa a fuoco estremamente nitida", ma la teiera era sfocata, con bordi poco definiti, come se facesse parte dello sfondo. Per uno spot pubblicitario, questo non ha senso. Per peggiorare le cose, quando la teiera ruotava, il manico veniva tagliato fuori dall'inquadratura. Il modello non è riuscito nemmeno a mantenere visibile l'unico oggetto nello scatto. Per una demo di prodotto, è un grande fallimento.
Cosa mi è piaciuto
Cosa non mi è piaciuto
Angolo della telecamera e movimento di rotazione corretti
Il design della teiera era semplice e poco ispirato
Configurazione dello sfondo e dell'illuminazione per lo più corretta
Il video era sfocato e fuori fuoco
La rotazione a 360 gradi era fluida
Il prodotto è stato tagliato durante la rotazione


Prompt #4: Il test di azione e movimento

Prompt utilizzato: "Ripresa POV a mano di qualcuno che corre attraverso un mercato notturno affollato e vibrante a Bangkok. La telecamera è traballante mentre si muove tra le persone e le bancarelle di cibo. Il vapore si alza dai wok e le lanterne colorate pendono sopra. Effetti sonori: una cacofonia di suoni del mercato — persone che parlano, cibo che sfrigola, musica distante. Il corridore occasionalmente guarda dietro di sé, respirando pesantemente. Stile: Film d'azione grintoso, realistico, immersivo, movimento leggermente sfocato."

La mia esperienza: Questo non era quello che mi aspettavo, e non in senso positivo. Il video si apriva con un personaggio che urlava "Fatti da parte!" e un effetto sonoro di pugno casuale, che immediatamente lo trasformava in una scena di fuga aggressiva che non avevo richiesto. Il mercato era affollato, ma qualcosa era molto sbagliato. Tutti erano in piedi in file perfettamente dritte e ordinate, e nessuno si muoveva. Hai mai visto un mercato affollato che sembra così? Era completamente innaturale.
Il corridore non ha mai guardato dietro di sé, un'azione specifica che avevo richiesto. Anche l'audio era un disastro. L'unico suono corretto era il respiro pesante del corridore. Il resto dei suoni del mercato era troppo distante e silenzioso, quando avrebbero dovuto essere una cacofonia vicina e immersiva. I cartelli erano un mix di tailandese e cinese, facendo sembrare il tutto un generico "mercato asiatico" invece che specificamente Bangkok. Questo gridava semplicemente "generato da AI."
Cosa mi è piaciuto
Cosa non mi è piaciuto
Il suono del respiro del corridore era realistico
Dialoghi e effetti sonori indesiderati sono stati aggiunti
La sensazione della telecamera a mano era in parte presente
La folla era statica e completamente irrealistica
L'illuminazione e i colori del mercato erano vibranti
L'ambientazione sembrava generica, non specifica per Bangkok


La funzione che cambia tutto: audio nativo e sincronizzazione labiale

Nonostante i risultati incoerenti nei miei quattro test, il successo del Prompt #1 evidenzia davvero perché Veo 3 sta attirando così tanta attenzione. La qualità della sincronizzazione labiale è dove brilla davvero. Quando funziona, come nel mio test della storica, il risultato è così convincente da poter essere scambiato per filmati reali. Il modello non si limita a far corrispondere i movimenti della bocca alle parole; genera schemi di discorso naturali con inflessioni, pause ed enfasi. Fa anche scelte creative sull'audio, come scegliere la musica di sottofondo invece del rumore ambientale quando serve meglio la scena. Quel tipo di intelligenza contestuale sull'audio è ciò che fa la differenza tra una clip che sembra generata da AI e una che effettivamente regge.


Le parti fastidiose: limiti giornalieri, rendering lento e glitch strani

Ecco dove devo essere onesto riguardo alle frustrazioni, perché ce ne sono state diverse.
I limiti giornalieri di generazione erano un vero problema. Dopo aver generato solo due video con il piano Google AI Plus, ho raggiunto un limite. Questo messaggio è apparso.
Messaggio di limite giornaliero raggiunto screenshot

Qui è dove il linguaggio vago "maggiore accesso" e "accesso più elevato" sulle pagine dei piani diventa un vero problema. Ho dovuto aggiornare di nuovo a Google AI Pro per continuare i miei test. Sono due aggiornamenti a pagamento solo per eseguire quattro prompt.
E poi ci sono i glitch. Il volto distorto nel riflesso del casco dell'astronauta, il pianeta extra nel cielo, i dialoghi aggiunti nella scena del mercato di Bangkok. Questi sono i tipi di artefatti visivi e audio che possono rendere un output altrimenti impressionante completamente inutilizzabile se si cerca il realismo. Limitazioni di Veo 3 come queste valgono la pena di essere tenute a mente prima di sottoscrivere un piano a pagamento.


Vale il prezzo Google Veo 3? Il mio verdetto onesto

Dopo questi round di test, ecco dove mi trovo sul fatto che Google Veo 3 valga la pena.
Per contenuti ricchi di dialoghi, in particolare video di teste parlanti, interviste in stile documentaristico o qualsiasi scena in cui un personaggio parla direttamente alla telecamera, Veo 3 è uno dei migliori strumenti disponibili in questo momento. La qualità della sincronizzazione labiale e la generazione di discorsi naturali sono davvero impressionanti e difficili da eguagliare. Se questo è il tuo caso d'uso principale, il piano Google AI Pro a $19.99 al mese è un investimento ragionevole.
Per tutto il resto, è più una scommessa. Il test della demo del prodotto è stato deludente, la sequenza d'azione era un disastro e il test cinematografico aveva un glitch che rendeva l'output inutilizzabile. I limiti giornalieri sono frustranti, soprattutto nei piani di livello inferiore, e i tempi di rendering rallentano le cose. Se sei un creatore solitario che sperimenta con video AI, vale la pena provare. Se sei un'agenzia o un team di produzione che ha bisogno di risultati coerenti e affidabili su larga scala, le limitazioni potrebbero superare i benefici per ora.
La conclusione: Veo 3 è davvero impressionante nelle giuste condizioni, ma non è ancora il generatore di video universale e affidabile che le demo suggeriscono. È uno strumento potente con un punto di forza specifico, e conoscere quel punto di forza prima di sottoscrivere un abbonamento ti risparmierà molta frustrazione.


Come Manus può potenziare il tuo flusso di lavoro video AI

Generare clip è solo una parte del processo. Un progetto video finito richiede brainstorming di idee, scrittura di script e prompt, organizzazione di risorse e creazione del contenuto circostante — i post del blog, le didascalie social e le descrizioni video che effettivamente fanno vedere il tuo contenuto. È qui che entra in gioco Manus.
Ho usato Manus durante tutto questo processo di recensione: per pianificare il mio approccio ai test, strutturare i quattro prompt e consolidare le mie note e scoperte in qualcosa di coerente prima di scrivere. Avere uno strumento che ti aiuta a organizzare il tuo pensiero prima di mettere le parole su una pagina fa una vera differenza, soprattutto quando stai gestendo più output di test e cercando di confrontarli equamente. Se stai costruendo un flusso di lavoro di contenuti video, vale la pena avere un agente AI al tuo fianco per il lavoro circostante. Puoi provare Manus gratuitamente su manus.im.


Domande frequenti

Come posso ottenere l'accesso a Google Veo 3?

Puoi accedere a Google Veo 3 tramite l'app Gemini sottoscrivendo uno dei piani AI a pagamento di Google. Il piano Google AI Plus ($7.99/mese) fornisce accesso limitato, mentre il piano Google AI Pro ($19.99/mese) sblocca la generazione video con Veo 3.1 Fast. L'accesso completo con i limiti più alti è disponibile sul piano Google AI Ultra ($249.99/mese).

Esiste una versione gratuita di Google Veo 3?

Non esiste una versione gratuita dedicata di Veo 3. Il piano gratuito di Google AI ha un accesso molto limitato e non supporta la generazione diretta di video tramite l'app Gemini. Gli utenti gratuiti possono avere accesso limitato tramite Google Flow, ma per una generazione video pratica avrai bisogno di un piano a pagamento.

Quali sono le limitazioni di Google Veo 3?

Le principali limitazioni di Veo 3 includono limiti giornalieri di generazione (anche sui piani a pagamento), tempi di rendering lenti di circa 3-5 minuti per clip, una lunghezza massima del video di 8 secondi, occasionali glitch visivi e incoerenze, e difficoltà con scene complesse multi-elemento. Anche la coerenza degli oggetti nelle riprese di prodotto e il comportamento dei personaggi nelle sequenze d'azione sono aree in cui può risultare carente.

Google Veo 3 può creare video più lunghi di 8 secondi?

No, la versione attuale di Google Veo 3 genera clip fino a 8 secondi di lunghezza. Per contenuti più lunghi, dovresti generare più clip e montarli insieme in uno strumento come Google Flow o un editor video standard.

Google Veo 3 è migliore di Sora di OpenAI?

Dipende da ciò di cui hai bisogno. Veo 3 ha un chiaro vantaggio nel realismo del dialogo e della sincronizzazione labiale, rendendolo la scelta migliore per contenuti in stile teste parlanti o interviste. Sora 2 generalmente offre prestazioni migliori per scene narrative più lunghe e ha un comportamento dei personaggi più coerente in prompt complessi. Per la maggior parte dei creatori, la scelta dipende dal tuo caso d'uso principale.
    Ho testato Google Veo 3 ed ecco la mia recensione onesta