VLOGGER.. أداة تحول الصور الثابتة لمقاطع فيديو تظهر الأشخاص يتحدثون ويتحركون بإيماءات مختلفة
طور باحثو غوغل نظامًا جديدًا للذكاء الاصطناعي يمكنه إنشاء مقاطع فيديو واقعية لأشخاص يتحدثون ويحركون ويتحركون، من مجرد صورة ثابتة واحدة.
وتعتمد هذه التقنية، التي تسمى VLOGGER، على نماذج التعلم الآلي المتقدمة لتجميع لقطات واقعية بشكل مذهل، وفتح مجموعة من التطبيقات المحتملة.
🚨 Google Introduces VLOGGER, Image to video creation model.
VLOGGER creates a life-like avatar from just a photo and controls it with your voice.
You don't need to show up for Zoom meetings now! 🙂 pic.twitter.com/k0cchl75jF
— Ashad (@ashadahmed_) March 17, 2024
وترى Google أن VLOGGER هو خطوة نحو تقديم “وكلاء المحادثة” الذين يمكنهم التفاعل مع الأشخاص بشكل طبيعي من خلال الكلام والإيماءات والتواصل البصري.
وبينما تفتح هذه التكنولوجيا عددًا من التطبيقات المحتملة، فإنها تثير أيضًا مخاوف بشأن خلق تزييف دبلوماسي ونشر معلومات مضللة.
This is scary!
Google just revealed VLOGGER, and it can create almost realistic talking + moving videos from JUST ONE PHOTO.
Here's what you need to know:
(+ more examples) pic.twitter.com/V61Sb0Xr9n
— Roni Rahman (@heyronir) March 19, 2024
بالإضافة إلى ذلك، لا يزال لدى VLOGGER قيود، فمقاطع الفيديو التي تم إنشاؤها قصيرة نسبيًا ولها خلفية ثابتة.
المدهش في التقنية الجديدة VLOGGER أنها تحول الصور الثابتة لمقاطع فيديو تظهر الأشخاص يتحدثون ويتحركون بإيماءات مختلفة، ويعتمد نموذج الذكاء الاصطناعي في تكوين هذا الفيديو على صورة ومقطع صوت للشخص كمدخلات يتم معالجتها واستخراج مقطع فيديو نهائي يطابق الصوت.
ووفقا لما ذكر في موقع venturebeat، فإن التقنية الجديدة Vlogger تفتقر للدقة حيث أن مقاطع الفيديو لا تظهر بالصورة المثالية المتوقعة، ومن ثم يمكن التنبؤ بأنها معدلة بالذكاء الاصطناعي، إلا أنها وبلا شك تمثل قفزة في مجال تحريك الصور وتحويلها لمقاطع فيديو.
طور باحثو Google DeepMind للتو VLOGGER.
إنه نموذج جديد للذكاء الاصطناعي يمكنه إنشاء مقاطع فيديو رمزية ناطقة مع حركة الجزء العلوي من الجسم بالكامل من مجرد صورة ثابتة ومقطع صوتي.
التطورات سريعة 🤔🤔 pic.twitter.com/2PC1CnnpCN
— Hashem (@hashemdigital) March 18, 2024
وبتطوير الأداة وتدريبها تم توسيع الميزة لتشمل إنتاج مقاطع الفيديو من خلال قراءة مجموعة من البيانات، وبإمكان تقنيةVLOGGER إنشاء مقاطع فيديو لأشخاص من جنسيات وأعمار مختلفة، كذلك بمواصفات وملابس وأوضاع وبيئات متنوعة.
وتأتي التقنية الجديدة لتشمل سلسلة من المزايا منها القدرة على دبلجة مقاطع الفيديو تلقائيا إلى لغات أخرى، إضافة لإنشاء مساعدين افتراضيين وروبوتات دردشة مدعومة بالذكاء الاصطناعي تكون أكثر جاذبية وتعبيراً، كما يمكن الاستفادة منه في العروض التقديمية والتعليم، ورغم الطفرة التي يقدمها Vlogger إلا أنه يفتقر لبعض المزايا، خاصة وأن قدرته على إنشاء مقاطع الفيديو قصيرة نسبيا، كما أن الأفراد لا يتحركون في بيئة ثلاثية الأبعاد بشكل يبدو واقعي.
مميزات قوية للأداة الجديدة لا يمكنك تفويتها
- تحويل صورة واحدة إلى مقاطع فيديو ناطقة
تعمل هذه الاداة المدعومة بالذكاء الاصطناعي على تحويل صورة واحدة وصوت واحد إلى مقاطع فيديو ناطقة واقعية!
- الترجمة
تستطيع VLOGGER ترجمة مقطع فيديو موجودًا بلغة معينة، وتقوم بتحرير مناطق العيون والوجه ليتوافق مع الأصوات الجديدة، على سبيل المثال بالإسبانية كما هو موضح في هذه التغريدة.
2. Video Translation
VLOGGER takes an existing video in a particular language, and edits the lip and face areas to be consistent with new audios, e.g. in Spanish. pic.twitter.com/lwuy1OoCKB
— Poonam Soni (@CodeByPoonam) March 20, 2024
- تحرير الفيديو
هذا الذكاء الاصطناعي ليس مخصصًا فقط للتعديلات البسيطة فيمكنه إضفاء الحيوية على تعابير الوجه وحركاته الجديدة، مما يفتح إمكانيات إبداعية لا حصر لها.
- التنوع
يقوم هذا النموذج بإنشاء مقاطع فيديو متنوعة بالحركة والواقعية. يظهر تنوع البكسل من 80 مقطع فيديو على اليمين: يشير اللون الأحمر إلى تنوع ألوان أعلى من الحركة الكبيرة مع الحفاظ على المظهر الواقعي.
4/ How VLOGGER Works:
This AI uses facial landmark detection and neural network models to sync lifelike lip movements and expressions with audio. pic.twitter.com/IWpWSBNPHG
— Poonam Soni (@CodeByPoonam) March 20, 2024
كيف يعمل VLOGGER
يستخدم الذكاء الاصطناعي هذا الكشف عن معالم الوجه ونماذج الشبكة العصبية لمزامنة حركات الشفاه والتعبيرات النابضة بالحياة مع الصوت.
من صورة ثابتة إلى فيديو
أطلقت Google أداة ذكاء اصطناعي جديدة تدعى #VLOGGER المدربة على مجموعة بيانات MENTOR التي تشمل 800,000 فيديو لأشخاص يتحدثون.
الخصائص الرئيسية لـ VLOGGER:
(تابع)pic.twitter.com/IJ2SdVyC40
— Khaled Hammadi 🇩🇿 🇵🇸 (@KhaledHammadi32) March 17, 2024
ولإنشاء النظام، استخدم المطورون مجموعة بيانات تحتوي على أكثر من 800 ألف هوية مختلفة و2200 ساعة من الفيديو. سمح هذا لـ VLOGGER بتعلم كيفية إنشاء مقاطع فيديو عن أشخاص من أعراق وأعمار وملابس وبيئات مختلفة وما إلى ذلك.