“سورا”.. أداة جديدة تعزز الاعتماد على الذكاء الاصطناعي

كشفت شركة “أوبن إيه آي” المتخصصة بتكنولوجيا الذكاء الاصطناعي التوليدي، عن أداة جديدة تتيح توليد مقاطع فيديو من النصوص.

الجدير ذكره أن “أوبن إيه آي” كانت قد اشتهرت سابقا ببرنامج “تشات جي بي تي” الذي أتاح للمستخدمين العاديين إمكانية توظيف الذكاء الاصطناعي التوليدي.

وأطلقت الشركة اسم “سورا” (أي سماء باليابانية) على النموذج الجديد التي كشفت عنه الخميس، والذي بإمكانه أن يخلق فيديوهات تقارب الواقع تصل مدتها إلى دقيقة واحدة وذلك بالالتزام بتعليمات المستخدم فيما يخص الموضوع الذي يطرحه وأسلوب العرض، بحسب صحيفة “ذا غارديان”.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

وذكرت الشركة في مدونتها أن نموذجها، “سورا” يستطيع أيضا أن يخلق فيديو مستوحى من صورة ثابتة أو أن يضيف محتوى بصريا على فيديوهات متوفرة أصلا.

وقالت الشركة: “نحن نعلّم الذكاء الاصطناعي ليتمكن من فهم ومحاكاة العالم الواقعي في حركته، بهدف تدريب النماذج التي من شأنها أن تساعد الأشخاص على حل المشاكل التي تتطلب التفاعل مع العالم الواقعي”.

وأضافت الشركة في مدونتها عدة أمثلة على تلك الفيديوهات الأولية التي يمكن للنموذج صنعها، منها “تريلر لفيلم يظهر مغامرات عالم فضاء ثلاثيني يرتدي بدلة مصنوعة من الصوف الأحمر وخوذة للدراجات النارية، سماء زرقاء، صحراء ملحية، بأسلوب سينمائي، التقط بفيلم 35 ملم، ألوان ساطعة”.

نصوص تتحول لفيديوهات.. والفضل لـ“سورا” الأداة الثورية الجديدة من “أوبن ايه آي”

الشركة أعلنت فتحها المجال لاستخدام “سورا” أمام عدد من الباحثين وصناع الفيديو، وسيتاح للفريق الذي لقبته بـ “red team” اختبار النموذج للتأكد من مواكبته شروط خدمة”أوبن إيه آي” التي تحظر “المحتوى العنيف بشكل مبالغ به والإباحية والصور التي تبث الكراهية وأشباه المشاهير”.

ولا تزال تجربة النموذج مقتصرة على الباحثين وفناني المحتوى المرئي وصناع الأفلام فقط، إلا أن المدير التنفيذي للشركة، سام ألتمان، استجاب لطلبات المستخدمين عبر تويتر بمقاطع فيديو تم توليدها باستخدام “سورا”، وظهرت علامة عليها تؤكد أن المحتوى تم توليده بالذكاء الاصطناعي.

وأطلقت الشركة لأول مرة مولد الصور الثابتة “دال-إي” في عام 2021 وروبوت الدردشة المولد بالذكاء الاصطناعي “تشات جي بي تي” في نوفمبر عام 2022، والذي جمع بسرعة 100 مليون مستخدم.

وقد طرحت شركات الذكاء الاصطناعي الأخرى أدوات إنشاء الفيديو لأول مرة، على الرغم من أن هذه النماذج لم تكن قادرة إلا على إنتاج بضع ثوانٍ فقط من اللقطات التي غالبا لا تشبه المحتوى المطلوب أو الأصلي.

وقالت شركتا “غوغل” و”ميتا” إنهما بصدد تطوير أدوات فيديو بتقنية الذكاء الاصطناعي التوليدي، على الرغم من أنها لا تتوفر أمام العامة.

كانت “أوبن إيه آي” أعلنت عن تجربة لإضافة ذاكرة أعمق إلى “تشات جي بي تي” حتى يتمكن من تذكر المزيد من محادثات مستخدميه.

ولم تكشف “أوبن إيه آي” عن كمية اللقطات التي استخدمت لتدريب “سورا” أو أصل الفيديوهات التي استخدمت في تدريبه، إلا أن القائمين على النموذج أكدوا لنيويورك تايمز أن المقاطع المستخدمة في تدريب البرمجية متوفرة للعامة وتحظى بترخيص استخدامها وفق حقوق الطبع من مالكيها.

ووفقاً لما نقتله “ذا غارديان” فإن الشركة واجهت دعاوى قضائية عدة بتهمة تزوير محتوى يحظى بحقوق طبع محفوظة أنتجته أدوات الذكاء الاصطناعي التابعة لها، والتي تعتمد على المحتوى المنشور على الإنترنت لمحاكاة الصور أو النصوص.