كيف يمكن لـ “Google VideoPoet” أن يحول نصك إلى فيديو مذهل؟
بعد إطلاق أداة “Gemini AI” من شركة غوغل، أصدرت هذه الأخيرة ترسانة من الأدوات التي تعتمد على الذكاء الاصطناعي، من بينها أداة “VideoPoet“، وقد تغير هذه الأداة طريقة استخدامنا للمواد المرئية كالصور والفيديوهات والتلاعب بها عبر الذكاء الاصطناعي.
ما هي أداة “VideoPoet”؟
أداة “VideoPoet”، هي أداة واحدة لصناعة وتحويل الصور والنصوص وحتى الصوتيات إلى فيديوهات جاهزة بالاعتماد على الذكاء الاصطناعي. فعلى سبيل المثال تستطيع إخبار”VideoPoet” أنك تريد توليد فيديو لـ ” كلب يستمع للموسيقى ” لتحصل على فيديو مدته بضع ثوانٍ يحاكي طلبك.
لازال “VideoPoet” في مراحله التجريبية، وقادر على القيام بالكثير لكنه في الوقت الراهن يستطيع التعامل مع النصوص فقط. تقول غوغل أنه يمكن لـ”VideoPoet” أن يساعدك على تحريك الصور مثل (تحويل الصور لفيديو) أو إعادة تجسيد الفيديو ( فيديو لفيديو).
توليد وتجسيد الفيديوهات ستكون الميزة الرئيسية لـ”VideoPoet” لكن سيكون لديه بعض الميزات العادية الأخرى مثل تحسين جودة الفيديو أو تغيير أبعاده.
يمكن تخيل “VideoPoet” من غوغل مثل خدمات “Midjourney” أو “Dall-E” التي تقدم لها نصوص مختلفة وتولدها على شكل صور. الفرق هنا أنك تحصل على فيديو بدل ذلك. أثناء استخدام “VideoPoet” لا تنسى الإشارة إلى نوع التوليد الذي تريده: فيديو خيالي، فيديو حقيقي، فيديو ثلاثي الأبعاد …
وأوضحت غوغل أن طريقة عمل “VideoPoet” قد تكون معقدة، إذ أنه يعتمد على تحويل النصوص إلى صور، ثم تجميع تلك الصور على شكل فريمات، ثم فيديو مفهوم في النهاية. زودت شركة غوغل خدمة “VideoPoet” بأكثر من 270 مليون فيديو في البداية لاستخدامها لتوليد فيديوهات عبر النص.
وفقاً لدراسة أجرتها غوغل، يمكن لـ Google VideoPoet أن يوفر للمستخدمين حتى 80% من الوقت والجهد الذي يحتاجونه لإنشاء فيديو بشكل يدوي. هو نموذج تجريبي من شركة غوغل يعمل بالذكاء الاصطناعي. وظيفته الأساسية إنشاء الصور والفيديوهات اعتماداً على مهارات التعلم العميق الخاصة بالذكاء الاصطناعي. وقد اشتهر بإنشاء الفيديوهات أكثر من الوسائط الأخرى، كونه أول نموذج يستطيع إنشاء فيديو باستخدام الذكاء الاصطناعي. حيث يمكنك ببساطة تقديم شرح كتابي لأي فكرة فيديو تجول في بالك وسيقوم هذا النموذج بإنشاء فيديو وفقاً للوصف الذي قدمه خلال دقائق، أو حتى ثواني!.
الوظائف الأساسية لأداة “VideoPoet”
بالرغم من أنه اشتهر بإنشاء الفيديوهات بدءاً من نصوص مكتوبة تصف الفيديو. إلا أن هذا النموذج يمكنه القيام بالعديد من الوظائف وهي كما ذكرت غوغل في ورقتها البحثية حول هذا النموذج: تحويل النص إلى فيديو، تحويل الصورة إلى فيديو، تعديل الفيديو، تحويل الفيديو إلى صوت. بالإضافة إلى معالجة الصور والفيديو.
فيديو يوضح كيف يمكنك إنشاء فيديو كامل بواسطة نص يصف ما تريد عبر “Google VideoPoet”
Google VideoPoet هو نموذج لغة كبير تم تطويره بواسطة Google Research، كما يستخدم تقنيات التعلم العميق والمحولات لإنشاء الفيديوهات ولإخراج مقاطع فيديو عالية الحركة ومتغيرة الطول بناءً على نص موجه.
يمكن لـ Google VideoPoet إنشاء مقاطع فيديو لأي موضوع أو نوع، مثل التعليم، التسويق، الترفيه، الفن، الرياضة، وغيرها. يمكن للمستخدمين استخدام هذه الفيديوهات لتقديم عروض تقديمية، أو ترويج منتجاتهم، أو مشاركة هواياتهم، أو تعلم مهارات جديدة، وغيرها من الأهداف.
“سورا” من “أوبن إيه آي”
وكانت شركة “أوبن إيه آي” مبتكرة برنامج “شات جي بي تي” ومولد الصور “دال إي”، قد أعلنت في فبراير الماضي عن أداة جديدة أطلقت عليها اسم “سورا” تُستخدم لإنشاء مقاطع فيديو واقعية تصل مدتها إلى دقيقة واحدة بمجرد إدخال طلب نصي، وهو ابتكار كبير في مجال الذكاء الاصطناعي، ويهدد بتغيير عدة قطاعات بحسب وكالة الأنباء الفرنسية.
وأوضحت الشركة الناشئة المتحالفة مع “مايكروسوفت” أن هذه المنصة الجديدة التي تستند إلى أبحاث سابقة أُجريت على برنامجي “دال إي” و”جي بي تي”، لا تزال قيد الاختبار، لكنها عرضت مع ذلك بعض مقاطع الفيديو وشرحت طريقة تطويرها.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
وشرحت “أوبن إيه آي” على موقعها الإلكتروني أن البرنامج يستطيع إنشاء مقاطع فيديو تصل مدتها إلى دقيقة واحدة “بجودة صورة عالية وباتباع أوامر المستخدم”. وأضافت أن في إمكان سورا إنشاء “مشاهد معقدة تضم شخصيات عدة وأنواعا محددة من الحركات وتفاصيل دقيقة”. كما يتيح سورا إنشاء فيديو من صورة ثابتة، أو توسيع مقاطع الفيديو الموجودة، بحسب “أوبن إيه آي”.
وأشار رئيس “أوبن إيه آي” سام ألتمان عبر شبكة “إكس” الاجتماعية، إلى أن الشركة ستتيح استخدام الأداة الجديدة “لعدد محدود” من مبتكري المحتوى، في إطار مرحلة تجريبية. كما دعا المستخدمين إلى تقديم مقترحات تتعلق بإنشاء مقاطع فيديو، وما لبث بعد لحظات أن عرض أبرزها على المنصة.
ما الفرق بين Chat GPT وGoogle Bard وVideoPoetمن حيث آلية العمل؟
قد تعتقد بأن هذا النموذج يعمل كشات جي بي تي (Chat GPT) أو غوغل بارد (Google Bard)، إلا أن الأمر أكثر تعقيداً بكثير. على الرغم من أن التقنيات الثلاثة تستخدم نموذج التنبؤ باللغة وتعتمد على بنية المحولات التي تمكنها من نمذجة العلاقات بين الكلمات في الجملة لجعلها أكثر فاعلية. إلا أن VideoPoet يستطيع (بالإضافة إلى ما سبق) التنبؤ بمقاطع الفيديو والصوت أيضاً، وهذا ما يميزه.
يتمثل الفرق الأساسي بين النماذج الثلاثة (Chat GPT ،Google Bard ، VideoPoet) في وظيفة كل منها. يمثل Chat GPT موسوعة معلومات ضخمة يمكنها الرد على أي استفسار لديك باستخدام الصوت أو الكتابة. إلا أنه لا يملك القدرة على تقديم أي نوع من الفيديوهات.
حيث يمكن لغوغل بارد أن يجلب معلوماته من الإنترنت مباشرة، بينما قد تتوقف خبرة شات جي بي تي عند كل إصدار. كما يمكن ل شات جي بي تي أن يقبل إدخال الصور ويقوم بإنشاء الصور في نسخة Chat GPT Plus أو أحدث. بينما لا يمكن لـ”غوغل بارد” أن يفعل ذلك.
🚀 Google Research introduces VideoPoet: a Transformer-based model trained on 2 trillion tokens, excelling in multi-modal tasks like text-to-video and image-to-video generation. 🤖 Revolutionizing AI video creation! 🎥 #VideoPoet #AI pic.twitter.com/CtIWpc7ofR
— Developer Nation Global Community (@devnationworld) March 20, 2024
أما VideoPoet فهو يتجاوز فكرة إنشاء النصوص أو الصور، ليقوم بإنشاء الفيديوهات وبكل سلاسة. ومع القدرة على تعديل الفيديو بعد إنشاءه.
ما الفرق بين Chat GPT وGoogle Bard و VideoPoet من حيث كمية البيانات التي تم تدريب النموذج عليها؟
بالنسبة للإصدار الرابع من شات جي بي تي (Chat GPT-4)، تم تدريب النموذج على 7000 كتاب، 8 ملايين موقع إلكتروني، ومليار رمز.
أما بالنسبة ل Google Bard فيعتمد على نموذج لغة يسمى (LaMDA) والذي تم تدريبه على مجموعة من البيانات تسمى Infiniset والتي تأتي أغلبها من غوغل نفسه، متضمنة ويكيبيديا والوثائق، والمستندات التي تم نشرها على غوغل.
بينما يخضع VideoPoet لعملية تدريب كثيفة تتضمن ترجمة الوسائط المختلفة من صور وصوت إلى لغة مشتركة تسمى الرموز المميزة. بعد أن تم تدريبه على مليار زوج من الصور والنصوص، و270 فيديو.
كيف يمكن الوصول إلى VideoPoet وهل هو مجاني؟
ما زال VideoPoet نموجاً تجريبياً، ولم يتم إطلاقه للعامة بعد. ولذلك لا يمكن أن نتنبأ بكونه مجاني أم لا. إلا أننا نأمل ذلك. وقد وعدت غوغل جمهورها بالعديد من الإمكانات الخارقة لهذا النموذج من خلال ورقتها البحثية التي نشرتها بعنوان: ” VideoPoet: نموذج لغوي كبير لإنشاء مقاطع فيديو بدون لقطات”.
كما لم توضح أيضا غوغل إن كانت هذه الخدمة ستكون مدفوعة أم مجانية، لكن بالنسبة لما تقدمه من خدمات بهذه القوة، فمن المستبعد أن تكون مجانية، وقد تكون متاحة عبر اشتراك خاص.