CHATGPT 4o.. يقبل الصوت والصورة وأسرع من الإصدارات السابقة

قامت OpenAI برفع الرهان في عالم الذكاء الاصطناعي التوليدي الشديد التنافسية من خلال تقديم نموذج جديد تأمل أن يجذب المزيد من المستخدمين إلى منصتها ويصد جميع المنافسين.

GPT-4o هو إصدار محدث من تقنية نموذج اللغة الكبيرة الأساسية التي تعمل على تشغيل ChatGPT. وترددت شائعات الأسبوع الماضي حول إطلاقه كمحرك بحث لتحدي غوغل، لكن رويترز ذكرت أن OpenAI أخرته.

نفى سام ألتمان، الرئيس التنفيذي لشركة OpenAI، أي إطلاقيشير الحرف “o” في الاسم إلى “omni” وتروج الشركة إلى أن GPT-4o هو شيء للجميع، وهو أمر منطقي لأن كلمة “omni” تعني “الكل” أو “كل شيء”.

ما هو GPT-4o؟

وفقًا لـ OpenAI، هو “النموذج الرئيسي الجديد الذي يمكنه التفكير عبر الصوت والرؤية والنص في الوقت الفعلي”.

ويشير اسم “omni” إلى “خطوة نحو تفاعل أكثر طبيعية بين الإنسان والحاسوب”، حسبما قالت OpenAI في منشور على مدونة يوم الاثنين.

ما هو CHATGPT 4o؟.. كيف يعمل وكم تكلفته؟

كما أنه متعدد الوسائط في الأصل، مما يعني أنه يمكنه قبول أي مجموعة من النص والصوت والصورة كمدخلات، وكذلك إنشاء أي مجموعة من مخرجات النص والصوت والصورة.

ما مدى سرعة GPT-4o؟

تدعي شركة OpenAI أن GPT-4o يمكنه الاستجابة للمدخلات الصوتية في أقل من 232 مللي ثانية، بمتوسط ​​320 مللي ثانية، وهو ما يشبه وقت الاستجابة البشرية في المحادثة، وفقًا للعديد من الدراسات.

وبالتالي، يتطلب GPT-4o استخدام عدد أقل من الرموز المميزة في اللغات، وهي الوحدة الأساسية في الذكاء الاصطناعي التي تحسب طول النص ويمكن أن تتضمن علامات الترقيم والمسافات. يختلف عدد الرموز المميزة من لغة إلى أخرى.

من بين اللغات التي أبرزتها OpenAI والتي تستخدم عددًا أقل من الرموز المميزة مع GPT-4o هي العربية (من 53 إلى 26)، والغوجارتية (145 إلى 33)، والهندية (90 إلى 31)، والكورية (45 إلى 27)، والصينية (34 إلى 24).

يمكننا إجراء بعض المقارنات مع دراسة أجراها روبرت ميلر عام 1968 – زمن الاستجابة في معاملات المحادثة بين الإنسان والحاسوب – والتي تناولت بالتفصيل المقاييس الثلاثة لاستجابة الحاسوب المركزي.

وكشف البحث عن وقت استجابة يبلغ 100 مللي ثانية يُنظر إليه على أنه فوري، في حين أن ثانية واحدة أو أقل تعتبر سريعة بما يكفي ليشعر المستخدمون أنهم يتفاعلون بحرية مع المعلومات. سيؤدي زمن الاستجابة الذي يزيد عن 10 ثوانٍ إلى فقدان انتباه المستخدم تمامًا.

كيف يعمل GPT-4o؟

أبسط إجابة هي أن OpenAI قامت بتبسيط عملية تحويل المدخلات إلى مخرجات.

في نماذج الذكاء الاصطناعي السابقة لـ OpenAI، تم استخدام الوضع الصوتي للتحدث إلى ChatGPT بزمن وصول يبلغ 2.8 ثانية (GPT-3.5) و5.4 ثانية (GPT-4) في المتوسط. يستخدم الوضع الصوتي ثلاثة نماذج منفصلة: نموذج بسيط ينقل الصوت إلى نص، ويستقبل GPT-3.5 أو GPT-4 النص ويخرجه، والإصدار البسيط الثالث يحول هذا النص مرة أخرى إلى صوت.

قالت OpenAI، “تعني هذه العملية أن المصدر الرئيسي للذكاء، GPT-4، يفقد الكثير من المعلومات – فلا يمكنه ملاحظة النغمة بشكل مباشر، أو مكبرات الصوت المتعددة، أو الضوضاء في الخلفية، ولا يمكنه إخراج الضحك أو الغناء أو التعبير عن المشاعر.”

ولكن مع GPT-4o، تمكنت OpenAI من دمج كل هذه الوظائف في نموذج واحد، مع إمكانات شاملة عبر النص والرؤية والصوت، مما يقلل بشكل كبير من مقدار الوقت المستهلك ومعالجة المعلومات.

وأضافت OpenAI: “تتم معالجة جميع المدخلات والمخرجات بواسطة “الشبكة العصبية”.و الشبكة العصبية هي تقنية ذكاء اصطناعي تعلم أجهزة الكمبيوتر كيفية معالجة البيانات بشكل مشابه للدماغ البشري.

ومع ذلك، قالت إنها “لا تزال مجرد خدش السطح” لقدرات وقيود GPT-4o، نظرًا لأنه نموذجها الأول الذي يدمج كل هذه الأساليب.

كم تكلفة GPT-4o؟

GPT-4o مجاني لجميع المستخدمين، حيث يتمتع المستخدمون المدفوعون بما يصل إلى خمسة أضعاف حدود السعة التي يتمتع بها أقرانهم المجانيون، حسبما قالت “ميرا موراتي”، كبيرة مسؤولي التكنولوجيا في OpenAI، في العرض التقديمي الذي كشف النقاب عنه.

ومع ذلك، إذا لم تكن من مستخدمي OpenAI الذين يدفعون، فسوف يكلفك ذلك 5 دولارات و15 دولارًا مقابل مليون رمز من المدخلات والمخرجات، على التوالي.

إن السماح بالاستخدام المجاني لـ GPT-4o يجب أن يخدم OpenAI جيدًا، وهو ما من شأنه أيضًا أن يكمل العروض المدفوعة الأخرى للشركة.

في أغسطس، أطلقت OpenAI خطتها الشهرية ChatGPT Enterprise، والتي يختلف سعرها حسب متطلبات المستخدم. إنها الطبقة الثالثة بعد خدمتها المجانية الأساسية وخطة Plus بقيمة 20 دولارًا شهريًا.

أطلقت الشركة في يناير متجر ChatGPT عبر الإنترنت الذي يتيح للمستخدمين الوصول إلى أكثر من ثلاثة ملايين إصدار مخصص من GPTs، التي طورها شركاء OpenAI ومجتمعها.