اختبرت Google Veo 3 وإليك مراجعتي الصادقة

بصفتي كاتب محتوى في Manus، فإن اختبار أدوات AI الجديدة هو أساسًا جزء من مسمى الوظيفة. عندما أُطلق Google Veo 3، فقد الإنترنت صوابه جماعيًا بسبب العروض التوضيحية. رؤوس متحدثة واقعية، صوت متزامن، مرئيات سينمائية، كل ذلك من موجه نصي واحد. لقد رأيت ما يكفي من دورات ضجيج AI لأعرف أن العروض التوضيحية منتقاة بعناية وأن النتائج في العالم الحقيقي قصة مختلفة تمامًا.
لذا قررت قضاء بعض الوقت في استخدام Google Veo 3 فعليًا، وتشغيله عبر أربعة موجهات مميزة مصممة لاختبار حدوده، وتوثيق كل شيء بصدق.
هذا ليس ملخصًا للمواد التسويقية لـ Google. هذه مراجعة عملية لـ Google Veo 3 مبنية على تجربتي الحقيقية، بما في ذلك الأجزاء التي أبهرتني، والأجزاء التي أحبطتني، والأجزاء التي ببساطة لم تنجح. بحلول نهاية هذه المقالة، ستعرف بالضبط ما الذي يجيده Veo 3، وأين يقصر، وما إذا كان يستحق السعر، وكيف يقارن بالمنافسة.
﻿
ما هو Google Veo 3؟ (وما الجديد في Veo 3.1؟)
Google Veo 3 هو نموذج متقدم لتوليد الفيديو بالذكاء الاصطناعي يقوم بإنشاء مقاطع فيديو عالية الجودة من موجه نصي واحد. يدعم الحوار المتزامن، والمؤثرات الصوتية المحيطية، والموسيقى الخلفية، كل ذلك من موجه واحد، وقد بنى سريعًا سمعة في إنتاج بعض من أكثر لقطات الرؤوس المتحدثة المولدة بالذكاء الاصطناعي واقعية في الوجود.
تم الإعلان عن Veo 3 لأول مرة في Google I/O في منتصف عام 2025 تقريبًا وسرعان ما أصبح أحد أكثر مولدات فيديو AI التي تمت مناقشتها هذا العام. أحدث تحديث، Veo 3.1، جلب تحسينات ذات معنى: ثبات أفضل، مزامنة شفاه أكثر دقة، توليد شخصيات أكثر اتساقًا، والترقية إلى 1080p و4K. يمكن الوصول إليه من خلال بعض منتجات Google — Google Flow، وهي أداة صناعة أفلام احترافية مصممة لتحرير وتسلسل المشاهد الأطول والأكثر تعقيدًا، وGoogle Whisk، وهي أداة تجريبية تركز على التوليد السريع من الصورة إلى الفيديو والمقاطع القصيرة. لهذه المراجعة، اختبرت من خلال تطبيق Gemini، حيث اخترت ببساطة زر أداة "إنشاء فيديو" وقمت بتشغيل جميع الموجهات الأربعة من هناك.
﻿
عملية الاختبار العملية الخاصة بي
لإجراء اختبار مناسب لهذا، لم أرغب فقط في إلقاء موجهات بسيطة عليه وإنهاء الأمر. طلبت من Manus مساعدتي في تصميم أربعة موجهات محددة لتقييم قدرات مختلفة: الحوار ومزامنة الشفاه، الأجواء السينمائية، اتساق المنتج، والحركة السريعة الإيقاع. إليك كيف سارت تلك العملية فعليًا.
كيف حصلت على الوصول (وكيف يمكنك ذلك أيضًا)
الحصول على الوصول إلى Veo 3 محير قليلاً في البداية بصراحة، وأعتقد أنه يستحق الشرح لأنه نقطة ألم شائعة.
﻿
بدأت بالحساب المجاني. الواجهة عامة جدًا، مشابهة لأدوات AI الأخرى، مع صندوق موجه وبعض أزرار الأدوات للاختيار منها. لم يكن هناك خيار توليد فيديو ظاهر في أي مكان. حاولت إدخال موجهي الأول على أي حال، فقط لأرى ما سيحدث.
﻿
ما حصلت عليه كان صورة، وليس فيديو. الصورة كانت في الواقع مثيرة للإعجاب وتطابق الموجه جيدًا، لكنها بوضوح لم تكن ما طلبته. ثم حاولت أن أطلب من Gemini صراحة إنشاء فيديو لي، معتقدًا ربما أنه أساء فهم نيتي. الرد الذي حصلت عليه كان: "يمكنني إنشاء هذا الفيديو لك اليوم إذا قمت بترقية اشتراكك."
﻿
لذا ذهبت لإلقاء نظرة على الخطط المدفوعة.
فيما يلي التفصيل الحالي لما تقدمه كل خطة لتوليد الفيديو:
الخطة
السعر الشهري
أرصدة AI
الوصول إلى Veo 3.1
Free
$0
50 رصيد يومي
وصول محدود إلى Flow، تحريك وتوليد الصور
Google AI Plus
$7.99/شهر
200 رصيد شهري
وصول أكبر إلى Flow وتوليد الصورة إلى الفيديو على Whisk
Google AI Pro
$19.99/شهر
1,000 رصيد شهري
وصول أعلى إلى Flow وWhisk
Google AI Ultra
$249.99/شهر
25,000 رصيد شهري
أعلى وصول إلى Flow وWhisk
صياغة الخطط غامضة. تقول Google AI Plus "المزيد من الوصول إلى إنشاء الصورة إلى الفيديو مع Veo 3" وتقول Google AI Pro "وصول أعلى". ليس واضحًا تمامًا ما الذي تحصل عليه فعليًا. ذهبت إلى Google AI Plus أولاً، لأنها كانت الفئة التالية وبدت أنها ستفي بالغرض. دفعت، اشتركت، وانطلقنا! في خطة Plus، تمكنت من رؤية إضافة خيار "إنشاء فيديو" الذي لم يكن متاحًا سابقًا في الخطة المجانية.
﻿
﻿
الموجهات الأربعة التي استخدمتها لاختبار حدود Veo 3
فيما يلي الموجهات الأربعة التي جمعتها لاختبار جوانب مختلفة من قدرات Veo 3:
1.اختبار الحوار ومزامنة الشفاه — لتقييم ميزة الصوت الأصلية الأساسية مع الحوار المتزامن.
2.الاختبار السينمائي والأجواء — لتقييم مدى تعامله مع الأنماط البصرية المعقدة وتوجيه الكاميرا.
3.اختبار اتساق المنتج والكائنات — للتحقق مما إذا كان يمكنه إنتاج مقاطع فيديو منتجات نظيفة واحترافية.
4.اختبار الحركة والديناميكية — لمعرفة كيفية تعامله مع الحركة السريعة، وعمل الكاميرا الديناميكي، والصوت متعدد الطبقات.
﻿
النتائج: 4 أمثلة فيديو من Veo 3 (الجيد، السيئ، والمليء بالأخطاء)
الموجه #1: اختبار الحوار ومزامنة الشفاه
الموجه المستخدم: "لقطة قريبة متوسطة لمؤرخة في الأربعينيات من عمرها، ترتدي نظارات، تجلس في مكتبة مضاءة بدفء. تنظر مباشرة إلى الكاميرا، وتتحدث بنبرة فكرية وجذابة. تقول، 'ما لا يدركه معظم الناس بشأن الإمبراطورية الرومانية هو أن انهيارها لم يكن حدثًا واحدًا، بل تفككًا بطيئًا ومعقدًا على مدى قرون.' الضوضاء المحيطة: حفيف هادئ لقلب الصفحات والهمس الناعم لمكيف هواء المكتبة. الأسلوب: مقابلة وثائقية، مصورة بكاميرا رقمية عالية الجودة."
﻿
تجربتي: حسنًا، لقد ذُهلت حقًا بهذا. كانت العملية سلسة، وكان الفيديو جاهزًا في دقائق. قصة حقيقية: أثناء توليده، قمت بتبديل علامات التبويب لأقوم بأشياء أخرى. عندما عدت ورأيت المخرجات، اعتقدت فعلاً أن إعلانًا عشوائيًا قد ظهر على شاشتي. بدا واقعيًا لتلك الدرجة. المؤرخة، الإضاءة، النبرة... كل شيء كان مثاليًا. تحدثت بتنغيمات طبيعية، وفترات توقف، وتشديدات. تعبيرات وجهها وحركات يديها؟ مثالية. كانت بالفعل تستحق مقابلة وثائقية.
الأشياء الوحيدة التي شعرت بأنها غير مناسبة قليلاً كانت ذرات الغبار العدوانية الطافية في ضوء الشمس، والتي كانت مشتتة قليلاً. وعلى الرغم من أنني طلبت أصوات مكتبة محيطية، فإن النموذج أعطاني مسارًا موسيقيًا خلفيًا خفيًا بدلاً من ذلك. لكن بصراحة؟ كان قرارًا تنفيذيًا ذكيًا. تناسبت الموسيقى مع الأسلوب الوثائقي بشكل مثالي، ربما حتى أفضل مما طلبته. يا لها من بداية!
ما أعجبني
ما لم يعجبني
شخصية واقعية بشكل لا يصدق وذات مظهر طبيعي
ذرات الغبار في ضوء الشمس كانت مشتتة قليلاً
مزامنة شفاه مثالية مع تنغيمات نطق طبيعية
تجاهل طلب الصوت المحيط المحدد (لكنه اتخذ قرارًا جيدًا)
التقط أسلوب المقابلة الوثائقية بشكل مثالي
﻿
﻿
الموجه #2: الاختبار السينمائي والأجواء
الموجه المستخدم: "لقطة دولي تتحرك ببطء للخلف، تكشف عن رائد فضاء وحيد يقف على حافة فوهة بركانية على المريخ. السماء بلون برتقالي محمر مغبر مع قمرين صغيرين مرئيين. مهجور وصامت. الأسلوب: خيال علمي ملحمي، 4K، عدسة واسعة الزاوية، مفصل للغاية، مزاج مبهر وكئيب."
﻿
تجربتي: هذا كان... مزيجًا متباينًا. أول شيء لفت انتباهي كان الانعكاس في خوذة رائد الفضاء. كنت قد طلبت انعكاسًا خافتًا للأرض، لكن ما حصلت عليه كان شريحة غريبة ومشوهة من وجه رجل. بدت غير مناسبة تمامًا، مثل خلل غريب حيث كانت طبقات الشفافية والأبعاد كلها خاطئة. هل كان من المفترض أن يكون ذلك وجه رائد الفضاء نفسه؟ من يدري! لقد بدا فقط ملصوقًا.
كل شيء آخر لم يكن سيئًا. البدلة، الفوهة البركانية، حركة الكاميرا، كل شيء جيد. تفاصيل ضباب الغبار والرمال كانت في الواقع واقعية للغاية. لكن الموجه طلب قمرين صغيرين، والسماء أظهرت ما بدا وكأنه ثلاثة كواكب بأحجام مختلفة. من المؤسف بشأن الوجه المعطل، لأنه بدونه، كان هذا سيكون مثيرًا للإعجاب. مع توليد فيديو AI، تربح بعضًا، وتخسر بعضًا. أضاف النموذج شمسًا ونجومًا وضبابًا متحركًا، وهو ما نجح. الوجه الإضافي والكوكب؟ ليس كثيرًا.
ما أعجبني
ما لم يعجبني
تنفيذ جيد لحركة كاميرا الدولي
خلل كبير مع الوجه المشوه في انعكاس الخوذة
تفاصيل ضباب الغبار والرمال الواقعية
لم يتبع تعليمات "قمرين"
التقط مزاج الخيال العلمي الملحمي المهجور بشكل جيد
افتقرت بدلة رائد الفضاء إلى بعض التفاصيل الدقيقة
﻿
الموجه #3: اختبار اتساق المنتج والكائنات
الموجه المستخدم: "لقطة قرص دوار لإبريق شاي خزفي راقي ومصمم بشكل جميل. الإبريق أبيض غير لامع بساطوي، يجلس على سطح رمادي فاتح عادي. تدور الكاميرا ببطء 360 درجة حول الإبريق. الأسلوب: إعلان منتج نظيف، إضاءة استوديو، ظلال ناعمة، عدسة ماكرو، تركيز حاد للغاية، لا توجد عوائق في الخلفية."
﻿
تجربتي: هذا كان فقط... جيد. ليس مثيرًا للإعجاب بشكل خاص. أعطاني النموذج التفسير الأكثر أساسية وحرفيًا للموجه. طلبت إبريق شاي "راقي ومصمم بشكل جميل"، وأعطاني وعاء خزفي عادي ذو مظهر تقليدي. كانت زاوية الكاميرا صحيحة، لكن السطح كان أبيض بدلاً من الرمادي الفاتح الذي حددته. كيف يخطئ في ذلك مع موجه بسيط جدًا؟
ما أزعجني حقًا كان التركيز. طلبت تحديدًا "تركيزًا حادًا للغاية"، لكن إبريق الشاي كان ضبابيًا، بحواف غير نظيفة، كما لو كان جزءًا من الخلفية. بالنسبة لإعلان منتج، هذا لا معنى له. ولزيادة الطين بلة، عندما دار إبريق الشاي، تم قطع المقبض من الإطار. لم يستطع النموذج حتى الحفاظ على الكائن الوحيد في اللقطة مرئيًا بالكامل. بالنسبة لعرض منتج، هذا فشل كبير.
ما أعجبني
ما لم يعجبني
زاوية الكاميرا الصحيحة وحركة الدوران
تصميم إبريق الشاي كان عاديًا وغير ملهم
إعداد الخلفية والإضاءة كان صحيحًا في الغالب
كان الفيديو ضبابيًا وخارج التركيز
كان الدوران بزاوية 360 درجة سلسًا
تم قطع المنتج أثناء الدوران
﻿
الموجه #4: اختبار الحركة والديناميكية
الموجه المستخدم: "لقطة محمولة باليد من منظور الشخص الأول لشخص يركض عبر سوق ليلي مزدحم وحيوي في بانكوك. الكاميرا مهتزة بينما يتعرج بين الناس وأكشاك الطعام. يتصاعد البخار من المقالي، وتتدلى المصابيح الملونة في الأعلى. SFX: مزيج صاخب من أصوات السوق — أناس يتحدثون، طعام يقلى، موسيقى بعيدة. ينظر العداء أحيانًا فوق كتفه، وهو يتنفس بصعوبة. الأسلوب: فيلم أكشن خشن، واقعي، غامر، حركة ضبابية قليلاً."
﻿
تجربتي: هذا لم يكن ما توقعته، وليس بطريقة جيدة على الإطلاق. افتتح الفيديو بشخصية تصرخ "ابتعد عن الطريق!" ومؤثر صوتي عشوائي للضرب، مما حولها على الفور إلى مشهد هروب عدواني لم أطلبه أبدًا. كان السوق مزدحمًا، لكن شيئًا ما كان غير مناسب جدًا. كان الجميع يقفون في صفوف مستقيمة ومنظمة تمامًا، ولا أحد يتحرك. هل سبق لك أن رأيت سوقًا مزدحمًا يبدو هكذا؟ كان غير طبيعي تمامًا.
لم ينظر العداء أبدًا فوق كتفه، وهو إجراء محدد طلبته. كان الصوت فوضى أيضًا. الصوت الوحيد الصحيح كان تنفس العداء الثقيل. كانت بقية أصوات السوق بعيدة جدًا وهادئة، عندما كان يجب أن تكون مزيجًا صاخبًا قريبًا وغامرًا. كانت اللافتات مزيجًا من التايلاندية والصينية، مما جعلها تشعر وكأنها "سوق آسيوي" عام بدلاً من بانكوك تحديدًا. هذا الواحد فقط صرخ "مولد بالذكاء الاصطناعي".
ما أعجبني
ما لم يعجبني
كان صوت تنفس العداء واقعيًا
تمت إضافة حوار ومؤثرات صوتية غير مرغوب فيها
كان الإحساس بالكاميرا المحمولة باليد موجودًا إلى حد ما
كانت الحشود ثابتة وغير واقعية تمامًا
كانت الإضاءة وألوان السوق نابضة بالحياة
شعر الإطار بالعمومية، وليس خاصًا ببانكوك
﻿
الميزة التي تغير كل شيء: الصوت الأصلي ومزامنة الشفاه
على الرغم من النتائج غير المتسقة عبر اختباراتي الأربعة، فإن نجاح الموجه #1 يسلط الضوء حقًا على سبب جذب Veo 3 لكل هذا الاهتمام. جودة مزامنة الشفاه هي حيث يتألق حقًا. عندما ينجح، كما حدث في اختبار المؤرخة الخاص بي، تكون النتيجة مقنعة بما يكفي ليتم الخلط بينها وبين لقطات حقيقية. لا يطابق النموذج حركات الفم بالكلمات فقط؛ بل يولد أنماط كلام طبيعية مع تنغيمات وفترات توقف وتشديدات. كما يتخذ قرارات إبداعية بشأن الصوت، مثل اختيار موسيقى الخلفية على الضوضاء المحيطية عندما تخدم المشهد بشكل أفضل. هذا النوع من الذكاء الصوتي السياقي هو ما يصنع الفرق بين مقطع يبدو مولدًا بالذكاء الاصطناعي وآخر يصمد فعليًا.
﻿
الأجزاء المزعجة: الحدود اليومية، التصيير البطيء، والأخطاء الغريبة
هنا يجب أن أكون صادقًا بشأن الإحباطات، لأنه كان هناك العديد منها.
كانت حدود التوليد اليومية مشكلة حقيقية. بعد توليد مقطعي فيديو فقط على خطة Google AI Plus، اصطدمت بجدار. ظهرت هذه الرسالة.
﻿
هنا تصبح لغة "المزيد من الوصول" و"الوصول الأعلى" الغامضة على صفحات الخطط مشكلة حقيقية. كان علي الترقية مرة أخرى إلى Google AI Pro لمواصلة اختباراتي. هذه ترقيتان مدفوعتان فقط لتشغيل أربعة موجهات.
ثم هناك الأخطاء. الوجه المشوه في انعكاس خوذة رائد الفضاء، الكوكب الإضافي في السماء، الحوار المضاف في مشهد سوق بانكوك. هذه هي أنواع العناصر البصرية والصوتية التي يمكن أن تجعل المخرجات المثيرة للإعجاب غير قابلة للاستخدام تمامًا إذا كان الواقعي هو ما تسعى إليه. تستحق قيود Veo 3 مثل هذه الاحتفاظ بها في الاعتبار قبل الالتزام بخطة مدفوعة.
﻿
هل يستحق Google Veo 3 السعر؟ حكمي الصادق
بعد جولات الاختبار هذه، إليك أين أقف بشأن ما إذا كان Google Veo 3 يستحق ذلك.
بالنسبة للمحتوى الذي يحتوي على حوارات كثيرة، خاصة مقاطع الفيديو ذات الرؤوس المتحدثة، أو المقابلات بأسلوب وثائقي، أو أي مشهد تتحدث فيه شخصية مباشرة إلى الكاميرا، فإن Veo 3 هو أحد أفضل الأدوات المتاحة الآن. جودة مزامنة الشفاه وتوليد الكلام الطبيعي مثيرة للإعجاب حقًا ويصعب مطابقتها. إذا كانت تلك حالة الاستخدام الأساسية لديك، فإن خطة Google AI Pro بسعر 19.99 دولارًا شهريًا استثمار معقول.
بالنسبة لكل شيء آخر، فإن الأمر مقامرة أكثر. كان اختبار عرض المنتج مخيبًا للآمال، وكان تسلسل الأكشن فوضى، وكان الاختبار السينمائي يحتوي على خلل جعل المخرجات غير قابلة للاستخدام. الحدود اليومية محبطة، خاصة في الخطط الأدنى، وأوقات التصيير تبطئ الأمور. إذا كنت منشئ محتوى منفردًا تجرب فيديو AI، فإنه يستحق المحاولة. إذا كنت وكالة أو فريق إنتاج يحتاج إلى نتائج متسقة وموثوقة على نطاق واسع، فقد تفوق القيود الفوائد في الوقت الحالي.
الخلاصة: Veo 3 مثير للإعجاب حقًا في الظروف المناسبة، لكنه ليس بعد مولد الفيديو الموثوق به والمتعدد الأغراض الذي توحي به العروض التوضيحية. إنها أداة قوية لها نقطة قوة محددة، ومعرفة تلك النقطة الحلوة قبل الاشتراك ستوفر لك الكثير من الإحباط.
﻿
كيف يمكن لـ Manus تعزيز سير عمل فيديو AI الخاص بك
توليد المقاطع هو جزء واحد فقط من العملية. يتطلب مشروع فيديو منتهٍ العصف الذهني للأفكار، وكتابة النصوص والموجهات، وتنظيم الأصول، وإنشاء المحتوى المحيط — منشورات المدونة، وتعليقات وسائل التواصل الاجتماعي، وأوصاف الفيديو التي تجعل المحتوى الخاص بك مرئيًا فعليًا. هنا يأتي دور Manus.
استخدمت Manus طوال عملية المراجعة هذه: لتخطيط نهج اختباري، وهيكلة الموجهات الأربعة، وتوحيد ملاحظاتي ونتائجي في شيء متماسك قبل الكتابة. وجود أداة تساعدك على تنظيم تفكيرك قبل وضع الكلمات على الصفحة يحدث فرقًا حقيقيًا، خاصة عندما تتعامل مع مخرجات اختبار متعددة وتحاول مقارنتها بإنصاف. إذا كنت تبني سير عمل لمحتوى الفيديو، فيستحق وجود Agent ذكاء اصطناعي في صفك للعمل المحيط. يمكنك تجربة Manus مجانًا على manus.im.
﻿
الأسئلة الشائعة
كيف يمكنني الوصول إلى Google Veo 3؟
يمكنك الوصول إلى Google Veo 3 من خلال تطبيق Gemini عن طريق الاشتراك في إحدى خطط AI المدفوعة من Google. توفر خطة Google AI Plus (7.99 دولار/شهر) وصولاً محدودًا، بينما تفتح خطة Google AI Pro (19.99 دولار/شهر) توليد الفيديو مع Veo 3.1 Fast. الوصول الكامل بأعلى الحدود متاح في خطة Google AI Ultra (249.99 دولار/شهر).
هل هناك إصدار مجاني من Google Veo 3؟
لا يوجد إصدار مجاني مخصص لـ Veo 3. خطة Google AI المجانية لها وصول محدود جدًا ولا تدعم توليد الفيديو المباشر من خلال تطبيق Gemini. قد يكون لدى المستخدمين المجانيين وصول محدود عبر Google Flow، ولكن لتوليد الفيديو العملي ستحتاج إلى خطة مدفوعة.
ما هي قيود Google Veo 3؟
تشمل قيود Veo 3 الرئيسية حدود التوليد اليومية (حتى في الخطط المدفوعة)، وأوقات التصيير البطيئة من حوالي 3-5 دقائق لكل مقطع، والحد الأقصى لطول الفيديو 8 ثوانٍ، والأخطاء البصرية العرضية وعدم الاتساق، والصعوبة مع المشاهد المعقدة متعددة العناصر. اتساق الكائنات في لقطات المنتج وسلوك الشخصية في تسلسلات الأكشن هي أيضًا مجالات يمكن أن يقصر فيها.
هل يمكن لـ Google Veo 3 إنشاء مقاطع فيديو أطول من 8 ثوانٍ؟
لا، الإصدار الحالي من Google Veo 3 يولد مقاطع تصل إلى 8 ثوانٍ. للمحتوى الأطول، ستحتاج إلى توليد مقاطع متعددة وتحريرها معًا في أداة مثل Google Flow أو محرر فيديو قياسي.
هل Google Veo 3 أفضل من Sora من OpenAI؟
يعتمد على ما تحتاجه. يتمتع Veo 3 بميزة واضحة في واقعية الحوار ومزامنة الشفاه، مما يجعله الخيار الأفضل لمحتوى الرؤوس المتحدثة أو المقابلات. يؤدي Sora 2 بشكل عام بشكل أفضل للمشاهد السردية الأطول ولديه سلوك شخصية أكثر اتساقًا عبر الموجهات المعقدة. بالنسبة لمعظم المبدعين، يأتي الاختيار من حالة الاستخدام الأساسية لديك.