Manus أصبح الآن جزءًا من Meta — جالبًا الذكاء الاصطناعي إلى الشركات حول العالم

أخرى·الجمعة, مارس 06

اختبرت Google Veo 3 وإليك مراجعتي الصادقة

بصفتي كاتب محتوى في Manus، فإن اختبار أدوات الذكاء الاصطناعي الجديدة هو جزء أساسي من وصف الوظيفة. عندما تم إطلاق Google Veo 3، فقد الإنترنت عقله الجماعي بسبب العروض التوضيحية. رؤوس متحدثة واقعية، صوت متزامن، صور سينمائية، وكل ذلك من نص واحد فقط. لقد رأيت ما يكفي من دورات الضجيج حول الذكاء الاصطناعي لأعرف أن العروض التوضيحية يتم تنسيقها وأن النتائج الواقعية قصة مختلفة تمامًا.
لذلك قررت قضاء بعض الوقت في استخدام Google Veo 3 فعليًا، وتشغيله من خلال أربعة مطالبات مميزة مصممة لدفع حدوده، وتوثيق كل شيء بصدق.
هذا ليس ملخصًا لمواد تسويقية من Google. هذا مراجعة عملية لـ Google Veo 3 بناءً على تجربتي الحقيقية، بما في ذلك الأجزاء التي أبهرتني، والأجزاء التي أزعجتني، والأجزاء التي لم تعمل على الإطلاق. بنهاية هذه المقالة، ستعرف بالضبط ما الذي يجيده Veo 3، وأين يفتقر، وما إذا كان يستحق السعر، وكيف يقارن بالمنافسة.


ما هو Google Veo 3؟ (وما الجديد في Veo 3.1؟)

Google Veo 3 هو نموذج متقدم لإنشاء الفيديو بالذكاء الاصطناعي يقوم بإنشاء مقاطع فيديو عالية الجودة من نص واحد فقط. يدعم الحوار المتزامن، والمؤثرات الصوتية المحيطة، والموسيقى الخلفية، وكل ذلك من نص واحد، وسرعان ما بنى سمعة لإنتاج بعض من أكثر لقطات الرؤوس المتحدثة التي تم إنشاؤها بالذكاء الاصطناعي واقعية.
تم الإعلان عن Veo 3 لأول مرة في Google I/O حوالي منتصف عام 2025 وسرعان ما أصبح واحدًا من أكثر مولدات الفيديو بالذكاء الاصطناعي التي تم الحديث عنها في العام. التحديث الأخير، Veo 3.1، جلب تحسينات كبيرة: استقرار أفضل، مزامنة شفاه أكثر دقة، توليد شخصيات أكثر اتساقًا، وترقية إلى 1080p و4K. إنه متاح من خلال بعض منتجات Google — Google Flow، وهي أداة لصناعة الأفلام بمستوى احترافي مصممة لتحرير وتسلسل المشاهد الأطول والأكثر تعقيدًا، وGoogle Whisk، وهي أداة تجريبية تركز على تحويل الصور إلى فيديو بسرعة وإنشاء مقاطع قصيرة. بالنسبة لهذه المراجعة، اختبرت من خلال تطبيق Gemini، حيث قمت ببساطة باختيار أداة "إنشاء فيديو" وتشغيل جميع المطالبات الأربعة من هناك.


عملية الاختبار العملية الخاصة بي

لإجراء هذا الاختبار بشكل صحيح، لم أرغب فقط في إلقاء مطالبات بسيطة عليه واعتبار الأمر منتهيًا. طلبت من Manus مساعدتي في تصميم أربعة مطالبات محددة لتقييم قدرات مختلفة: الحوار ومزامنة الشفاه، الأجواء السينمائية، اتساق المنتج، والحركة السريعة. إليك كيف سارت هذه العملية بالفعل.

كيف حصلت على الوصول (وكيف يمكنك ذلك أيضًا)

الحصول على الوصول إلى Veo 3 في البداية كان مربكًا بعض الشيء، وأعتقد أنه يستحق التوضيح لأنه نقطة ألم شائعة.
واجهة حساب مجاني في Gemini لقطة شاشة

بدأت على الحساب المجاني. الواجهة كانت عادية جدًا، مشابهة لأدوات الذكاء الاصطناعي الأخرى، مع صندوق إدخال نص وبعض الأدوات للاختيار من بينها. لم يكن هناك خيار لإنشاء الفيديو ظاهر في أي مكان. حاولت إدخال أول مطالبة لي على أي حال، فقط لأرى ما سيحدث.
Gemini أعاد صورة بدلاً من فيديو لقطة شاشة

ما حصلت عليه كان صورة، وليس فيديو. الصورة كانت في الواقع مثيرة للإعجاب وتطابق النص جيدًا، لكنها لم تكن ما طلبته بوضوح. ثم حاولت أن أطلب من Gemini صراحةً إنشاء فيديو لي، معتقدًا ربما أنه قد أساء فهم نيتي. الرد الذي حصلت عليه كان: "يمكنني إنشاء هذا الفيديو لك اليوم إذا قمت بترقية اشتراكك."
ترقية مطالبة لقطة شاشة

لذلك ذهبت للنظر في الخطط المدفوعة.
إليك التقسيم الحالي لما تقدمه كل خطة لإنشاء الفيديو:
الخطة
السعر الشهري
رصيد الذكاء الاصطناعي
الوصول إلى Veo 3.1
مجاني
$0
50 رصيد يومي
وصول محدود إلى Flow وAnimate وإنشاء الصور
Google AI Plus
$7.99/شهر
200 رصيد شهري
وصول أكبر إلى Flow وإنشاء الصور إلى الفيديو على Whisk
Google AI Pro
$19.99/شهر
1,000 رصيد شهري
وصول أعلى إلى Flow وWhisk
Google AI Ultra
$249.99/شهر
25,000 رصيد شهري
أعلى وصول إلى Flow وWhisk
الصياغة على الخطط غامضة. Google AI Plus يقول "وصول أكبر إلى إنشاء الصور إلى الفيديو مع Veo 3" وGoogle AI Pro يقول "وصول أعلى." ليس واضحًا تمامًا ما الذي تحصل عليه بالفعل. اخترت Google AI Plus أولاً، لأنه كان المستوى التالي ويبدو أنه سيفي بالغرض. دفعت، اشتركت، وانطلقت! في خطة Plus، استطعت رؤية إضافة خيار "إنشاء فيديو" الذي لم يكن متاحًا سابقًا في الخطة المجانية.
خطة Gemini Plus مع خيار "إنشاء فيديو" الآن مرئي



المطالبات الأربعة التي استخدمتها لاختبار حدود Veo 3

إليك المطالبات الأربعة التي قمت بتجميعها لاختبار جوانب مختلفة من قدرات Veo 3:
1.اختبار الحوار ومزامنة الشفاه — لتقييم ميزة الصوت الأصلية الأساسية مع الحوار المتزامن.
2.اختبار الأجواء السينمائية — لتقييم مدى تعامله مع الأنماط البصرية المعقدة واتجاه الكاميرا.
3.اختبار اتساق المنتج والأشياء — للتحقق مما إذا كان يمكنه إنتاج فيديوهات منتجات نظيفة واحترافية.
4.اختبار الحركة والعمل — لمعرفة كيف يتعامل مع الحركة السريعة، عمل الكاميرا الديناميكي، والصوت الطبقي.


النتائج: 4 أمثلة فيديو Veo 3 (الجيد، السيئ، والمليء بالأخطاء)

المطالبة #1: اختبار الحوار ومزامنة الشفاه

النص المستخدم: "لقطة متوسطة قريبة لمؤرخة في الأربعينيات من عمرها، ترتدي نظارات، تجلس في مكتبة مضاءة بشكل دافئ. تنظر مباشرة إلى الكاميرا، وتتحدث بنبرة مدروسة وجذابة. تقول، 'ما لا يدركه معظم الناس عن الإمبراطورية الرومانية هو أن انهيارها لم يكن حدثًا واحدًا، بل تفككًا بطيئًا ومعقدًا على مدى قرون.' ضوضاء محيطة: صوت تقليب الصفحات بهدوء وهمهمة خفيفة لتكييف الهواء في المكتبة. النمط: مقابلة وثائقية، مصورة بكاميرا رقمية عالية الجودة."

تجربتي: حسنًا، لقد أذهلني هذا حقًا. العملية كانت سلسة، وكان الفيديو جاهزًا في دقائق. قصة حقيقية: بينما كان يتم التوليد، قمت بتغيير التبويبات للقيام بأشياء أخرى. عندما عدت ورأيت النتيجة، اعتقدت بالفعل أن إعلانًا عشوائيًا قد ظهر على شاشتي. كان يبدو واقعيًا جدًا. المؤرخة، الإضاءة، النبرة... كل شيء تم إتقانه. تحدثت بتعبيرات طبيعية، توقفات، وتشديدات. تعبيرات وجهها وإيماءات يدها؟ مثالية. كان يستحق بالفعل مقابلة وثائقية.
الأشياء الوحيدة التي شعرت بأنها غير صحيحة كانت جزيئات الغبار الطافية في ضوء الشمس، والتي كانت مشتتة قليلاً. وبينما طلبت أصوات مكتبة محيطة، أعطاني النموذج مسار موسيقى خلفية بدلاً من ذلك. ولكن بصراحة؟ كان قرارًا ذكيًا. الموسيقى تناسب النمط الوثائقي تمامًا، ربما حتى أفضل مما طلبت. يا له من بداية!
ما أعجبني
ما لم يعجبني
شخصية واقعية وطبيعية للغاية
جزيئات الغبار في ضوء الشمس كانت مشتتة قليلاً
مزامنة شفاه مثالية مع تعبيرات الكلام الطبيعية
تجاهل طلب الصوت المحيط المحدد (ولكن اتخذ قرارًا جيدًا)
التقط النمط الوثائقي للمقابلة بشكل مثالي



المطالبة #2: اختبار الأجواء السينمائية

النص المستخدم: "لقطة دوللي تتحرك ببطء للخلف، تكشف عن رائد فضاء وحيد يقف على حافة فوهة بركان على سطح المريخ. السماء مغبرة، برتقالية مائلة إلى الأحمر مع ظهور قمرين صغيرين. المشهد مقفر وصامت. النمط: خيال علمي ملحمي، 4K، عدسة واسعة الزاوية، تفاصيل شديدة، مزاج ملهم وحزين."

تجربتي: هذا كان... مزيجًا من الجيد والسيئ. أول شيء لفت انتباهي كان الانعكاس في خوذة رائد الفضاء. طلبت انعكاسًا خافتًا للأرض، ولكن ما حصلت عليه كان شريحة مشوهة لوجه رجل. بدا الأمر غير صحيح تمامًا، مثل خطأ غريب حيث كانت طبقات الشفافية والأبعاد كلها خاطئة. هل كان من المفترض أن يكون وجه رائد الفضاء نفسه؟ من يعلم! فقط بدا وكأنه تم لصقه.
كل شيء آخر لم يكن سيئًا. البدلة، الفوهة، حركة الكاميرا، كلها جيدة. تفاصيل الغبار والضباب الرملي كانت واقعية جدًا. ولكن النص طلب قمرين صغيرين، والسماء أظهرت ما يبدو كأنه ثلاثة كواكب بأحجام مختلفة. إنه لأمر مؤسف بشأن الوجه المشوه، لأنه بدونه، كان هذا سيكون مثيرًا للإعجاب. مع إنشاء الفيديو بالذكاء الاصطناعي، تفوز ببعض، وتخسر البعض. النموذج أضاف شمسًا، ونجومًا، وضبابًا متحركًا، والتي عملت. الوجه الإضافي والكوكب؟ ليس كثيرًا.
ما أعجبني
ما لم يعجبني
تنفيذ جيد لحركة الكاميرا الدوللي
خطأ كبير مع الوجه المشوه في انعكاس الخوذة
تفاصيل الغبار والضباب الرملي واقعية
لم يتبع تعليمات "قمرين"
التقط المزاج الملحمي للخيال العلمي بشكل جيد
بدلة رائد الفضاء افتقرت إلى بعض التفاصيل الدقيقة


المطالبة #3: اختبار اتساق المنتج والأشياء

النص المستخدم: "لقطة دوران لوعاء شاي سيراميكي عالي الجودة ومصمم بشكل جميل. الوعاء أبيض غير لامع، يجلس على سطح رمادي فاتح بسيط. الكاميرا تدور ببطء 360 درجة حول الوعاء. النمط: إعلان تجاري نظيف للمنتج، إضاءة استوديو، ظلال ناعمة، عدسة ماكرو، تركيز حاد للغاية، بدون تشتيت في الخلفية."

تجربتي: هذا كان فقط... عاديًا. ليس مثيرًا للإعجاب بشكل خاص. النموذج أعطاني التفسير الأكثر أساسية وحرفية للنص. طلبت "وعاء شاي عالي الجودة ومصمم بشكل جميل"، وأعطاني وعاءً تقليديًا بسيطًا. زاوية الكاميرا كانت صحيحة، ولكن السطح كان أبيض بدلاً من الرمادي الفاتح الذي حددته. كيف يمكن أن يخطئ في ذلك مع نص بسيط كهذا؟
ما أزعجني حقًا كان التركيز. طلبت تحديدًا "تركيزًا حادًا للغاية"، ولكن الوعاء كان ضبابيًا، مع حواف غير نظيفة، كما لو كان جزءًا من الخلفية. بالنسبة لإعلان تجاري للمنتج، هذا لا معنى له. لجعل الأمور أسوأ، عندما دار الوعاء، تم قطع المقبض تمامًا من الإطار. النموذج لم يتمكن حتى من إبقاء الشيء الوحيد في اللقطة مرئيًا بالكامل. بالنسبة لعرض منتج، هذا فشل كبير.
ما أعجبني
ما لم يعجبني
زاوية الكاميرا وحركة الدوران كانت صحيحة
تصميم الوعاء كان بسيطًا وغير ملهم
إعداد الخلفية والإضاءة كان صحيحًا إلى حد كبير
الفيديو كان ضبابيًا وخارج التركيز
دوران 360 درجة كان سلسًا
المنتج تم قطعه أثناء الدوران


المطالبة #4: اختبار الحركة والعمل

النص المستخدم: "لقطة POV محمولة لشخص يركض عبر سوق ليلي مزدحم ونابض بالحياة في بانكوك. الكاميرا تهتز بينما يتنقل بين الناس وأكشاك الطعام. البخار يتصاعد من المقالي، والفوانيس الملونة معلقة فوق الرأس. مؤثرات صوتية: ضوضاء السوق — الناس يتحدثون، الطعام يصدر صوتًا أثناء الطهي، موسيقى بعيدة. العداء ينظر أحيانًا خلف كتفه، يتنفس بصعوبة. النمط: فيلم حركة واقعي، غامر، حركة ضبابية قليلاً."

تجربتي: هذا لم يكن ما توقعته، وليس بطريقة جيدة على الإطلاق. الفيديو بدأ بشخصية تصرخ "ابتعد عن الطريق!" وصوت تأثير لكمة عشوائي، مما حوله فورًا إلى مشهد هروب عدواني لم أطلبه أبدًا. السوق كان مزدحمًا، ولكن كان هناك شيء غريب. الجميع كانوا يقفون في خطوط مستقيمة تمامًا، ولم يكن أحد يتحرك. هل رأيت يومًا سوقًا مزدحمًا يبدو هكذا؟ كان غير طبيعي تمامًا.
العداء لم ينظر أبدًا خلف كتفه، وهو إجراء محدد طلبته. الصوت كان فوضويًا أيضًا. الصوت الوحيد الذي كان صحيحًا هو تنفس العداء الثقيل. بقية أصوات السوق كانت بعيدة جدًا وهادئة، بينما كان يجب أن تكون قريبة وغامرة. اللافتات كانت مزيجًا من التايلاندية والصينية، مما جعلها تبدو كسوق "آسيوي" عام بدلاً من بانكوك تحديدًا. هذا الفيديو كان يصرخ "تم إنشاؤه بالذكاء الاصطناعي."
ما أعجبني
ما لم يعجبني
صوت تنفس العداء كان واقعيًا
تمت إضافة حوار وتأثيرات صوتية غير مرغوب فيها
إحساس الكاميرا المحمولة كان موجودًا إلى حد ما
الحشد كان ثابتًا وغير واقعي تمامًا
الإضاءة وألوان السوق كانت نابضة بالحياة
الإعداد كان عامًا، وليس خاصًا ببانكوك


الميزة التي تغير كل شيء: الصوت الأصلي ومزامنة الشفاه

على الرغم من النتائج غير المتسقة عبر اختباراتي الأربعة، فإن نجاح المطالبة #1 يبرز حقًا سبب حصول Veo 3 على كل هذا الاهتمام. جودة مزامنة الشفاه هي المكان الذي يبرز فيه حقًا. عندما يعمل، كما فعل في اختبار المؤرخة، تكون النتيجة مقنعة بما يكفي لتبدو كأنها لقطات حقيقية. النموذج لا يطابق فقط حركات الفم مع الكلمات؛ بل يولد أنماط كلام طبيعية مع تعبيرات، توقفات، وتشديدات. كما يتخذ قرارات إبداعية بشأن الصوت، مثل اختيار الموسيقى الخلفية بدلاً من الضوضاء المحيطة عندما يخدم المشهد بشكل أفضل. هذا النوع من الذكاء الصوتي السياقي هو ما يصنع الفرق بين مقطع يبدو تم إنشاؤه بالذكاء الاصطناعي وآخر يمكن أن يصمد بالفعل.


الأجزاء المزعجة: الحدود اليومية، البطء في التوليد، والأخطاء الغريبة

هنا يجب أن أكون صادقًا بشأن الإحباطات، لأنه كان هناك العديد منها.
كانت حدود التوليد اليومية مشكلة حقيقية. بعد إنشاء مقطعي فيديو فقط على خطة Google AI Plus، وصلت إلى الحائط. ظهرت هذه الرسالة.
رسالة الحد اليومي لقطة شاشة

هذا هو المكان الذي تصبح فيه لغة "وصول أكبر" و"وصول أعلى" الغامضة على صفحات الخطط مشكلة حقيقية. كان علي الترقية مرة أخرى إلى Google AI Pro لمواصلة اختباراتي. هذا يعني ترقيتين مدفوعتين فقط لتشغيل أربعة مطالبات.
ثم هناك الأخطاء. الوجه المشوه في انعكاس خوذة رائد الفضاء، الكوكب الإضافي في السماء، الحوار المضاف في مشهد سوق بانكوك. هذه هي أنواع القطع الأثرية البصرية والصوتية التي يمكن أن تجعل النتيجة المثيرة للإعجاب غير قابلة للاستخدام تمامًا إذا كنت تبحث عن الواقعية. حدود Veo 3 مثل هذه تستحق أن تؤخذ في الاعتبار قبل الالتزام بخطة مدفوعة.


هل يستحق Google Veo 3 السعر؟ رأيي الصادق

بعد هذه الجولات من الاختبار، إليك ما أتوصل إليه بشأن ما إذا كان Google Veo 3 يستحق ذلك.
بالنسبة للمحتوى الثقيل بالحوار، وخاصة مقاطع الفيديو ذات الرؤوس المتحدثة، المقابلات الوثائقية، أو أي مشهد يتحدث فيه شخصية مباشرة إلى الكاميرا، فإن Veo 3 هو واحد من أفضل الأدوات المتاحة الآن. جودة مزامنة الشفاه وتوليد الكلام الطبيعي مثيرة للإعجاب حقًا وصعبة المطابقة. إذا كان هذا هو استخدامك الأساسي، فإن خطة Google AI Pro بسعر $19.99 شهريًا هي استثمار معقول.
بالنسبة لكل شيء آخر، الأمر أشبه بالمقامرة. اختبار عرض المنتج كان مخيبًا للآمال، مشهد الحركة كان فوضويًا، واختبار السينما كان به خطأ جعل النتيجة غير قابلة للاستخدام. الحدود اليومية مزعجة، خاصة في الخطط ذات المستوى الأدنى، وأوقات التوليد تبطئ الأمور. إذا كنت منشئ محتوى فرديًا يجرب الفيديو بالذكاء الاصطناعي، فإنه يستحق المحاولة. إذا كنت وكالة أو فريق إنتاج يحتاج إلى نتائج موثوقة ومتسقة على نطاق واسع، فقد تفوق القيود الفوائد في الوقت الحالي.
الخلاصة: Veo 3 مثير للإعجاب حقًا في الظروف المناسبة، لكنه ليس بعد مولد الفيديو الشامل والموثوق الذي توحي به العروض التوضيحية. إنه أداة قوية مع نقطة قوة محددة، ومعرفة تلك النقطة قبل الاشتراك ستوفر عليك الكثير من الإحباط.


كيف يمكن لـ Manus تعزيز سير عمل الفيديو بالذكاء الاصطناعي الخاص بك

إنشاء المقاطع هو جزء واحد فقط من العملية. يتطلب مشروع الفيديو النهائي توليد الأفكار، كتابة النصوص والمطالبات، تنظيم الأصول، وإنشاء المحتوى المحيط — المنشورات المدونة، التسميات التوضيحية الاجتماعية، وأوصاف الفيديو التي تجعل المحتوى الخاص بك يُرى بالفعل. هنا يأتي دور Manus.
استخدمت Manus طوال عملية المراجعة هذه: لتخطيط نهج الاختبار الخاص بي، هيكلة المطالبات الأربعة، وتوحيد ملاحظاتي ونتائجي في شيء متماسك قبل الكتابة. وجود أداة تساعدك على تنظيم تفكيرك قبل وضع الكلمات على الصفحة يحدث فرقًا حقيقيًا، خاصة عندما تكون تتعامل مع مخرجات اختبار متعددة وتحاول مقارنتها بشكل عادل. إذا كنت تبني سير عمل محتوى فيديو، فإنه يستحق أن يكون لديك وكيل ذكاء اصطناعي في صفك للعمل المحيط. يمكنك تجربة Manus مجانًا على manus.im.


الأسئلة الشائعة

كيف يمكنني الحصول على الوصول إلى Google Veo 3؟

يمكنك الوصول إلى Google Veo 3 من خلال تطبيق Gemini عن طريق الاشتراك في إحدى خطط الذكاء الاصطناعي المدفوعة من Google. خطة Google AI Plus ($7.99/شهر) توفر وصولًا محدودًا، بينما خطة Google AI Pro ($19.99/شهر) تفتح إنشاء الفيديو باستخدام Veo 3.1 Fast. الوصول الكامل بأعلى الحدود متاح في خطة Google AI Ultra ($249.99/شهر).

هل هناك نسخة مجانية من Google Veo 3؟

لا توجد نسخة مجانية مخصصة من Veo 3. خطة Google AI المجانية لديها وصول محدود جدًا ولا تدعم إنشاء الفيديو المباشر من خلال تطبيق Gemini. قد يكون لدى المستخدمين المجانيين وصول محدود عبر Google Flow، ولكن لإنشاء الفيديو العملي ستحتاج إلى خطة مدفوعة.

ما هي قيود Google Veo 3؟

تشمل القيود الرئيسية لـ Veo 3 حدود التوليد اليومية (حتى في الخطط المدفوعة)، أوقات التوليد البطيئة التي تتراوح بين 3-5 دقائق لكل مقطع، طول الفيديو الأقصى 8 ثوانٍ، الأخطاء البصرية والصوتية العرضية، وصعوبة مع المشاهد المعقدة متعددة العناصر. اتساق الأشياء في لقطات المنتجات وسلوك الشخصيات في المشاهد الحركية هي أيضًا مجالات يمكن أن تكون فيها النتائج غير مرضية.

هل يمكن لـ Google Veo 3 إنشاء فيديوهات أطول من 8 ثوانٍ؟

لا، الإصدار الحالي من Google Veo 3 يولد مقاطع تصل إلى 8 ثوانٍ فقط. لإنشاء محتوى أطول، ستحتاج إلى إنشاء مقاطع متعددة وتحريرها معًا في أداة مثل Google Flow أو محرر فيديو قياسي.

هل Google Veo 3 أفضل من Sora من OpenAI؟

يعتمد ذلك على ما تحتاجه. يتمتع Veo 3 بميزة واضحة في واقعية الحوار ومزامنة الشفاه، مما يجعله الخيار الأفضل لمحتوى الرؤوس المتحدثة أو المقابلات. Sora 2 عمومًا يؤدي بشكل أفضل في المشاهد السردية الأطول ولديه سلوك شخصيات أكثر اتساقًا عبر النصوص المعقدة. بالنسبة لمعظم المبدعين، يعتمد الاختيار على استخدامك الأساسي.