جيل جديد من مولدات الصور بالذكاء الاصطناعي.. تعرف على CM3Leon
على مدار العامين الماضيين، أصبحت مولدات الصور التي تعمل بالذكاء الاصطناعي سلعة رائجة، بفضل التوافر الواسع للتكنولوجيا، وتقليل الحواجز التقنية حولها.
واستحوذت هذه التقنية على اهتمام شركات عملاقة مثل غوغل ومايكروسوفت، بالإضافة إلى عدد لا يحصى من الشركات الناشئة التي تسعى للحصول على جزء من اهتمام الناس بتطبيقات الذكاء الاصطناعي المربحة.
ودخلت مجموعة ميتا العملاقة على خط المنافسة في مجال توليد الصور بالذكاء الاصطناعي، بعد إطلاق نموذج جديد يحمل اسم (CM3Leon)، في ظل هذا الاهتمام المتسارع بنماذج الذكاء الاصطناعي التوليدية.
ويأتي إطلاق نموذج ميتا الجديد بعد النجاح الكبير الذي حققه نموذج توليد الصور الشهير DALL-E 2 الذي طورته شركة أوبن إيه آي، وهو نموذج يمكنه إنشاء صور واقعية من الأوصاف النصية، بالإضافة لعدد آخر من النماذج المختلفة منها “Imagen” الذي طورته شركة غوغل.
وتنافس ميتا بنموذجها الجديد، DALL-E 2 من شركة OpenAI، و”Imagen” من غوغل، واللتان تستندان إلى تقنية تُعرف باسم “الانتشار” Diffusion وهي تقنية تتطلب حوسبة أكبر لتشغيلها، فضلًا عن كونها بطيئة ومكلفة، لكن CM3Leon يتفرّد باستخدام تقنية أخرى تسمى “الاهتمام” Attention والتي تمتاز بتكلفتها المنخفضة وجودتها العالية، كما أنها تجعل النموذج أسرع في التدرب وإظهار النتائج.
وعادة تستخدم هذه النماذج تقنيات مختلفة لإنشاء صور، ولكن جميعها تستخدم الذكاء الاصطناعي لإنشاء صور واقعية من الأوصاف النصية، وتُستخدم هذه النماذج في مجموعة متنوعة من التطبيقات، بما في ذلك إنشاء التصاميم والتسويق.
مميزات CM3leon
وفق إعلان ميتا عبر مدونتها، فإن النموذج CM3leon، وهو جيل جديد من مولدات الصور بالذكاء الاصطناعي، يعد الأفضل في فئته لتوليد الصور استنادًا إلى الأوامر النصية.
أحد مزايا CM3leon هو أنه أكثر كفاءة من نماذج الجيل السابقة، وهذا يعني أنه يمكنه إنشاء نص وصور بشكل أسرع، ما يجعله أكثر ملاءمة للتطبيقات الواقعية.
ميزة أخرى لـ CM3leon هي أنه يمكنه إنشاء نتائج أكثر اتساقًا، وهذا يعني أنه من غير المرجح أن يولد نصًا أو صورًا غير واضحة أو مشوهة.
ومن خلال قدرات النموذج الجديد يمكن لأدوات توليد الصور إنتاج صور أكثر اتساقًا وفقًا للإرشادات النصية المدخلة.
كما يتفرد النموذج الجديد بقدرته على توليد وصف للصور، مما يمهد الطريق لتطوير نماذج فهم الصور ذات القدرات الأكبر في المستقبل.
وتم بناء CM3leon على أساس Transformer، وهو نموذج هندسي للشبكة العصبية يُعرف بقدرته على أداء مهام معالجة اللغة الطبيعية.
وتم تدريب CM3leon على مجموعة بيانات ضخمة من النصوص والصور، ويمكنه إنشاء نص وصور واقعية وإبداعية، حيث استخدمات ميتا ملايين الصور المرخصة لتدريبه.
وتحتوي أقوى نسخة من النموذج على 7 مليارات من المَعلمات (Parameters)، أي أكثر من ضعف ما يحتوي عليه نموذج DALL-E 2 التابع لشركة أوبن إيه آي.
والمَعلمات هي أجزاء النموذج التي تم تعلمها من بيانات التدريب وتحدد بشكل أساسي مهارة النموذج في حل مشكلة ما، مثل إنشاء نص.
كما استخدمت ميتا تقنية “الضبط الدقيق تحت الإشراف” لتدريب نموذجها الجديد، إذ حسنت أداء النموذج في توليد الصور وكتابة الوصف والتعليقات على الصور، ما يوفر إمكانية الإجابة على الأسئلة حول الصور، وكذلك تعديلها باستخدام الأوامر النصية.
وتم استخدام هذه التقنية لتدريب نماذج إنشاء النصوص مثل ChatGPT الذي طورته شركة أوبن إيه آي، ولكن نظرية ميتا قد تكون مفيدة عند تطبيقها على مجال الصورة أيضًا.
مهام متعددة
باستخدام إمكانيات CM3leon، يمكن لأدوات إنشاء الصور إنتاج صور أكثر تماسكًا تتبع مطالبات الإدخال بشكل أفضل.
على سبيل المثال، تواجه العديد من نماذج إنشاء الصور القدرة على استعادة الأشكال العالمية والتفاصيل المحلية، ويتملك CM3leon أداءً قويًا في هذا المجال.
وقدمت ميتا مجموعة من متنوعة من المهام التي يمكن لنموذجها الجديد تنفيذها أبرزها:
إنشاء وتحرير الصور الموجهة بالنص
يمكن أن يكون إنشاء الصورة أمرًا صعبًا عندما يتعلق الأمر بالكائنات المعقدة أو عندما تتضمن المطالبة العديد من القيود التي يجب تضمينها جميعًا في المخرج النهائي.
ويعد تحرير الصور الموجه بالنص أمرًا صعبًا لأنه يتطلب من النموذج أن يفهم في نفس الوقت التعليمات النصية والمحتوى المرئي.
في الواقع، أدى ضبط التعليمات إلى تحسين أداء CM3Leon ليس فقط في إنشاء الصور ولكن في كتابة تعليق الصورة، ما يمكّنه من الإجابة على الأسئلة حول الصور وتعديل الصور باتباع الإرشادات النصية، على سبيل المثال يمكنه التعامل مع طلبات مثل “تغيير لون السماء إلى اللون الأزرق الساطع”.
تحويل النص إلى صورة
عرضت ميتا مجموعة 4 صور نجح نموذجها الجديد في إنتاجها بناء على النصوص وهي: صبار صغير يرتدي قبعة من القش ونظارة شمسية في الصحراء الكبرى، وصورة مقربة ليد بشرية بجودة عالية، وشخصية راكون رئيسية في أنيمي تستعد لمعركة ملحمية مع سيف ساموراي، و”علامة قف” بأسلوب خيالي مع النص “1991”.
مهام نصية
يمكن لنموذج CM3leon أيضًا تنفيذ مجموعة من المطالبات المختلفة لإنشاء تسميات توضيحية قصيرة أو طويلة والإجابة على أسئلة حول الصورة.
على سبيل المثال، تخيل كلبًا يحمل عصا.
كما يمكنه أن يصف الصورة المقدمة بتفاصيل دقيقة للغاية.
وعندما وضعت له صورة بهذا السياق كانت إجابته: في هذه الصورة، يوجد كلب يحمل عصا في فمه، هناك عشب على السطح، في خلفية الصورة توجد أشجار.
نتائج فائقة الدقة
تشير ميتا إلى أن نموذجها الجديد مدرب بشكل منفصل لإنتاج صور عالية الدقة من مخرجات النموذج الأصلي.
وعرضت أمثلة في هذا السياق للصور بناء على المطالبات النصية وكانت كالتالي:
فنجان قهوة ساخن مع وجود الجبال في الخلفية.
يستريح أثناء رحلة الطريق.
طريق جميل مهيب أثناء غروب الشمس. جمالي.
جزيرة دائرية صغيرة في وسط بحيرة. الغابات المحيطة بالبحيرة. تباين عالي.
تسبح السلحفاة تحت الماء. جمالي. خيالي.
فيل يسبح تحت الماء، جمالي، خيالي.
قطيع من الغنم، جمالي، خيالي.
ولا يزال CM3leon قيد التطوير حتى الآن، ولم تحدد ميتا موعد إصداره، ومن المتوقع أن تكشف المزيد من التفاصيل حول هذا النموذج لاحقًا.
ومن المتوقع استخدام هذا النموذج لمجموعة متنوعة من التطبيقات والمجالات، مثل الواقع الافتراضي والواقع المعزز والروبوتات والدعاية والإعلان والتسويق.