أحدث نسخة مطورة لتحويل النص لصورة.. الكشف عن أداة Dall-E 3
كشفت شركة OpenAI الأمريكية، النقاب عن (Dall-E 3)، وهي أحدث نسخة مطورة من أداة تحويل النص إلى صورة (DALL·E).
وأوضحت الشركة في بيان، أن النسخة الجديدة تستخدم برنامج الدردشة الشهير ChatGPT على نطاق واسع للتخلص من عناء ملء المطالبات الخاصة بإنشاء الصور.
وعادة، تحتاج معظم أدوات إنشاء الصور المتطورة التي تعمل بالذكاء الاصطناعي المطالبات -أوصاف الصور- لتحولها إلى عمل فني في مجموعة من الأساليب، بدءًا من الصورة الواقعية إلى الخيالية. لكن صياغة الموجه الصحيح أو المطالبة النصية الصحيحة يمكن أن تشكل تحديًا للكثيرين.
Our new text-to-image model, DALL·E 3, can translate nuanced requests into extremely detailed and accurate images.
Coming soon to ChatGPT Plus & Enterprise, which can help you craft amazing prompts to bring your ideas to life:https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL
— OpenAI (@OpenAI) September 20, 2023
في المقابل، فإن أداة DALL-E 3 الجديدة تستخدم ChatGPT لمساعدة المستخدمين في ملء المطالبات، إذ يمكنك تعديل العمل الفني بمجرد التحدث إلى برنامج الدردشة الآلي الشهير.
التكامل مع ChatGPT
وتمنح أداة DALL-E 3 الجديدة المستخدمين تكاملا مع ChatGPT، إذ لا يحتاج الأشخاص إلى تقديم توجيه مفصل لروبوت الدردشة ChatGPT لتوجيهه إلى DALL-E 3، بل يكفي أن يطلبوا من ChatGPT توجيه المطالبة بنفسه، بحيث يكتب برنامج الدردشة فقرة لتتبعها DALL-E 3.
ولا يزال بإمكان المستخدمين كتابة المطالبات يدويًا إذا كانت لديهم أفكار محددة لمنصة DALL-E.
"In front of a deep black backdrop, a figure of middle years, her Tongan skin rich and glowing, is captured mid-twirl, her curly hair flowing like a storm behind her. Her attire resembles a whirlwind of marble and porcelain fragments. Illuminated by the gleam of scattered… pic.twitter.com/8KwCclpU5M
— OpenAI (@OpenAI) September 20, 2023
وقالت OpenAI: “يسمح هذا التكامل مع ChatGPT لمزيد من الأشخاص بإنشاء فن الذكاء الاصطناعي لأنه لا يتعين عليهم أن يكونوا جيدين في كتابة التوجيه”.
ويمكن للمستخدمين كتابة طلب للحصول على صورة وتعديل المطالبة، وتلقي النتائج مباشرة، من خلال المحادثات مع ChatGPT.
ميزة هذه الإضافة، أن ChatGPT سيأخذ مطالبة قصيرة لا تزيد عن بضع كلمات ويجعلها أكثر وصفًا، مما يوفر مزيدًا من التوجيه لنموذج DALL-E 3 لإنتاج صور بدقة عالية.
وذكرت الشركة: “يمكن لـ DALL-E 3 ترجمة الطلبات الدقيقة إلى صور مفصلة ودقيقة للغاية”.
تدابير الأمان
وكشفت شركة OpenAI أنها ركزت عند تطوير DALL-E 3 على إنشاء تدابير الأمان القوية لمنع إنشاء الصور البذيئة أو الصور البغيضة.
وعملت OpenAI مع فريق خارجي لاختبار سلامة المنصة، واعتمدت على مصنفات المدخلات، وهي طريقة لتعليم النماذج اللغوية تجاهل كلمات معينة لتجنب المطالبات العنيفة.
ولن تتمكن منصة DALL-E 3 من إعادة إنشاء صور الشخصيات العامة إذا كانت المطالبة تذكر اسمًا على وجه التحديد.
"A modern architectural building with large glass windows, situated on a cliff overlooking a serene ocean at sunset." pic.twitter.com/XlUWuqymlK
— OpenAI (@OpenAI) September 20, 2023
ودربت الشركة المنصة على رفض إنشاء صور بأسلوب الفنانين الأحياء، وذلك على عكس DALL-E 2 القادرة على تقليد الفن بأسلوب فنانين معينين عندما يُطلب منها ذلك.
على سبيل المثال، سيرفض DALL-E 3 الطلبات التي تطلب صورة بأسلوب الفنانين الأحياء أو تصوير شخصيات عامة.
وتسمح OpenAI للفنانين بطلب إزالة أعمالهم الفنية في الإصدارات المستقبلية من نماذج الذكاء الاصطناعي لتحويل النص إلى صورة، وذلك لتجنب الدعاوى القضائية، حيث يمكن للمبدعين إرسال صورة يمتلكون حقوقها وطلب إزالتها من خلال نموذج عبر موقع الشركة.
ويستطيع الإصدار المستقبلي من المنصة بعد ذلك حظر النتائج التي تبدو مشابهة لصورة الفنان وأسلوبه.
"A middle-aged woman of Asian descent, her dark hair streaked with silver, appears fractured and splintered, intricately embedded within a sea of broken porcelain. The porcelain glistens with splatter paint patterns in a harmonious blend of glossy and matte blues, greens,… pic.twitter.com/QryQz0BtxB
— OpenAI (@OpenAI) September 20, 2023
يأتي ذلك، في الوقت الذي تواجه فيه شركة OpenAI، إلى جانب بعض منافسيها، دعوى قضائية بزعم استخدام أعمال الفنانين المحمية بحقوق الطبع والنشر لتدريب نماذج صور الذكاء الاصطناعي التوليدية الخاصة بها.
أبرز ميزات DALL-E 3
- تنتج DALL-E 3 صورًا أكثر واقعية ودقة من الإصدارات السابقة.
- يمكن لـ DALL-E 3 فهم السياق بشكل أفضل من الإصدارات السابقة، مما يؤدي إلى إنشاء صور أكثر دقة وصلة بالوصف النصي.
- يمكن للمستخدمين الآن استخدام ChatGPT لإنشاء التوجيهات النصية لـ DALL-E 3، مما يجعل من السهل إنشاء صور أكثر تعقيدًا.
- أضافت OpenAI العديد من خيارات الأمان إلى DALL-E 3 لمنع إنشاء الصور البذيئة أو الصور البغيضة.
موعد طرح الإصدار الجديد
وقالت الشركة إن إصدار Dall-E 3 سيكون متاحًا لعملاء ChatGPT Plus وEnterprise في أكتوبر المقبل، عبر واجهة برمجة التطبيقات.
ولم تذكر الشركة متى، أو ما إذا كانت، تخطط لإصدار أداة ويب مجانية، كما فعلت مع DALL-E 2 ونموذج DALL-E الأصلي.
وكانت شركة OpenAI أطلقت الإصدار الأول من منصة DALL-E في يناير 2021، فيما طرحت الإصدار الثاني من المنصة DALL-E 2 في سبتمبر 2022.
ويأتي إطلاق DALL-E 3 مع احتدام سباق الذكاء الاصطناعي التوليدي، خاصة في مجال تركيب الصور.
يواصل المنافسون مثل منصة Midjourney ومنصة Stability AI تحسين نماذجهم المولدة للصور، مما يضغط على شركة OpenAI لتطوير منتجاتها باستمرار.