“جيس” يستند إلى 13 مليار مؤشر
لاقى نموذج “جيس” Jais اللغوي الكبير للغة العربية، الذي أطلقته دولة الإمارات قبل يومين، صدى واسعًا عبر وسائل الإعلام، بعتباره إنجازًا كبيرًا للذكاء الاصطناعي العربي، يفتح آفاقًا جديدة لاستخدام الذكاء الاصطناعي في المنطقة.
ويعد “جيس” المنافس العربي الأعلى جودة في العالم لروبوت الدردشة الشهير ChatGPT وغيره على مستوى النماذج اللغوية الكبيرة المدربة مسبقًا بالذكاء الاصطناعي.
والنماذج اللغوية الكبيرة هي أنظمة معالجة للغات طبيعية مدربة على كميات ضخمة من النصوص، وقادرة على إجابة الأسئلة واستيعابها، بالإضافة إلى ابتكار نص جديد.
وتتمتع النماذج اللغوية الكبيرة الأكثر تقدمًا حاليا مثل نموذج (GPT-4) الذي يعمل به روبوت الدردشة ChatGPT، ونموذج (PaLM) الذي يعمل به روبوت الدردشة Google Bard بالقدرة على فهم باللغة العربية وإنشاء نصوص منها، ولكنها لا تقدم الدقة التي يقدمها نموذج “جيس”.
يأتي ذلك بفضل استناد “جيس” إلى 13 مليار مؤشر، وتدرُّبه على مجموعة بيانات مطوَّرة حديثًا تتضمَّن 395 مليار رمز باللغتين العربية والإنجليزية.
ما هو “جيس”؟
“جيس” Jais هو نموذج لغوي كبير مفتوح المصدر للغة العربية، وقد تم تطويره عبر تعاون بين ‘إنسبشن’، مركز الذكاء الاصطناعي التابع لمجموعة ‘جي 42’ (G42) الإماراتية، وجامعة محمد بن زايد للذكاء الاصطناعي، أول جامعة للدراسات العليا المتخصصة ببحوث الذكاء الاصطناعي على مستوى العالم، وشركة “سيريبراس سيستمز” الأمريكية.
وسُمِّي النموذج “جيس” بهذا الاسم تيمُّنًا باسم أعلى قمَّة في دولة الإمارات العربية المتحدة، ليقدِّم مزايا الذكاء الاصطناعي التوليدي إلى العالم العربي.
ويستخدم جيس اللغة العربية الفصحى الحديثة، والتي يتم فهمها في جميع أنحاء الشرق الأوسط، بالإضافة إلى اللهجات المنطوقة المتنوعة في المنطقة من خلال الاعتماد على كل من الوسائط ووسائل التواصل الاجتماعي والأكواد.
أهمية “جيس” لمتحدثي العربية
يعدُّ إطلاق “جيس” محطةً بالغةَ الأهمية في مجال الذكاء الاصطناعي في العالم العربي؛ فهذا النموذج يتيح لأكثر من 400 مليون متحدِّث باللغة العربية إمكانية استكشاف القدرات الكامنة للذكاء الاصطناعي التوليدي، ويعزِّز مكانة دولة الإمارات مركزاً رائداً للذكاء الاصطناعي والابتكار وصون الثقافة والتعاون الدولي.
وسبق لدولة الإمارات العربية المتحدة أن طورت نموذجًا لغويًا كبيرًا مفتوح المصدر (LLM) أيضًا، يُعرف باسم (Falcon)، وقد طُور هذا النموذج في معهد الابتكار التكنولوجي، وهو مركز الأبحاث العلمية الرائد عالميًا وذراع الأبحاث التطبيقية لمجلس أبحاث التكنولوجيا المتقدمة في أبوظبي، باستخدام أكثر من 300 شريحة من شركة (إنفيديا) Nvidia.
لكن “جيس” يمثل حجر أساس لفتح الاستفادة من مزايا الذكاء الاصطناعي التوليدي في العالم العربي، بفضل تدريبه باستخدام الحاسوب الفائق “كوندور غالاكسي” المدعوم بالذكاء الاصطناعي، والذي يقوم بمليون ترليون عملية حسابية في الثانية.
وفقا للبروفيسور تيموثي بالدوين، عميد جامعة محمد بن زايد للذكاء الاصطناعي بالإنابة، فإن نموذج “جيس” يتميز بأنه مصمم للحصول على فهم أكثر دقة لثقافة المنطقة العربية، على عكس معظم النماذج التي تركز على الولايات المتحدة.
وأوضح بالدوين لصحيفة “فاينانشيال تايمز” أن نموذج “جيس” تم تزويده بحواجز حماية للتأكد من أنه “لن يخرج عن الحدود المعقولة من حيث الحساسيات الثقافية والدينية”.
وأضاف أنه قبل إطلاقه تم إجراء اختبارات مكثفة للتخلص من المحتوى “الضار” أو “الحساس”، وكذلك “المخرجات المسيئة أو غير المناسبة التي لا تمثل قيم المنظمات المشاركة في تطوير النموذج”.
وواجه تطوير نموذج “جيس” واحدا من التحديات الكبرى خلال تدريبه، متمثلة في الافتقار إلى بيانات عالية الجودة باللغة العربية على الإنترنت، مقارنة باللغة الإنجليزية.
وأوضح بالدوين أنهم استعانوا بأكواد الكمبيوتر وبيانات اللغة الإنجليزية للمساعدة في تدريب قدرة النموذج على التفكير.
وتابع: “الكود يمنح النموذج تقدما كبيرا فيما يتعلق بقدرات التفكير المنطقي”، وهو ما يمكن البناء عليه باللغة العربية.
ويؤكد بالدوين “جيس أفضل من أي شيء آخر باللغة العربية، وفي اللغة الإنجليزية تظهر المقارنات أننا قادرون على المنافسة أو حتى أفضل قليلاً في المهام المختلفة مقارنة بالنماذج الحالية”.
وقال أندرو جاكسون، الرئيس التنفيذي لمركز “إنسيبشن”: “إننا ننظر إلى هذا باعتباره سباقاً عالمياً.. تركز معظم برامج LLM على اللغة الإنجليزية. مع أن اللغة العربية هي واحدة من أكبر اللغات في العالم. لماذا لا يحصل المجتمع الناطق باللغة العربية على نموذجه الخاص؟”.
أبرز مميزات “جيس”
يُعد (جيس) نموذجًا لغويًا كبيرًا قائمًا على المحولات، ويستخدم العديد من المزايا المتطورة، ومنها: مزية الانتباه للتحيزات الخطية (ALiBi) التي تمكن النموذج من استقراء تسلسل طويل لتوفير سياق أفضل وأدق.
ومن التقنيات الرائدة التي يستخدمها النموذج أيضًا دالة تنشيط الوحدات الخطية المسورة (SwiGLU)، وتحديد معلِّمات الحد الأقصى للتحديث، بغية تعزيز كفاءة تدريب النموذج ودقته.
واُستخدم في تدريب النموذج حاسوب الذكاء الاصطناعي الفائق كوندور جالاكسي1 (CG-1)، الذي طُور بالتعاون بين شركتي (G42)، و(Cerebras). وتضمنت مجموعة البيانات 279 مليار رمز متميز باللغة الإنجليزية لضمان الارتقاء بأداء النموذج عبر التحويل الثنائي اللغة.
وهذه الميزات والفوائد من جيس تجعله أداة قيمة يمكن استخدامها في مجموعة متنوعة من التطبيقات، بما في ذلك:
الترجمة: يمكن استخدام جيس لترجمة النصوص بين اللغتين العربية والإنجليزية بدقة وكفاءة.
تلخيص النصوص: يمكن استخدام جيس لتلخيص النصوص العربية الطويلة بطريقة موجزة وغنية بالمحتوى.
الإبداع: يمكن استخدام جيس لإنشاء نصوص إبداعية باللغة العربية، مثل القصائد والروايات والسيناريوهات.
الإجابة على الأسئلة: يمكن استخدام جيس للإجابة على الأسئلة باللغة العربية بطريقة مفيدة وشاملة.
تحليل البيانات النصية: يمكن استخدام جيس لتحليل البيانات النصية العربية واستخراج المعلومات منها.
كيف يمكن استخدام “جيس”؟
يمكن تنزيل نموذج “جيس” من موقع “Hugging Face”.
كما يمكن للمستخدمين تجربة النموذج عبر الإنترنت من خلال التسجيل عبر الموقع الإلكتروني لـ”جيس” وتلقي دعوة للوصول إليه.