تواجه نماذج الذكاء الاصطناعي الجديدة مثل o3 وo4-mini من OpenAI تحديات ملحوظة، تتمثل في ارتفاع معدلات “الهلاوس” أو تقديم معلومات مختلقة مقارنة بإصدارات سابقة. هذه النماذج، رغم تفوقها في مجالات منطقية وتحليلية مثل حل المشكلات الرياضية وكتابة الأكواد البرمجية، إلا أنها تظهر أداء متذبذبًا يشير إلى الحاجة الملحة لتحسين مستويات الدقة والمصداقية.
تحديات الهلاوس في النماذج الجديدة من OpenAI
الهلاوس تمثل عقبة كبيرة تواجه مجال الذكاء الاصطناعي، حيث تعني تزويد المستخدم بمعلومات غير حقيقية بشكل يبدو منطقيًا تمامًا، وهو ما لاحظه المستخدمون والباحثون في نموذجَي o3 وo4-mini. وفقًا لتقارير OpenAI الداخلية، سجل نموذج o3 نسبة هلاوس بلغت 33% عند اختباره في معيار “PersonQA” الذي يقيس دقة معرفة النموذج بالمعلومات عن الأشخاص، بينما وصل معدل الهلاوس في o4-mini إلى 48%. مقارنة بالنماذج القديمة مثل o1 وo3-mini، فإن هذا الارتفاع مثير للقلق، خاصة عندما يتعلق الأمر باستخدام الذكاء الاصطناعي في تطبيقات ذات حساسية مثل الطب أو القانون.
نتائج الاختبارات والتحديات الرئيسية
أظهرت النماذج الجديدة أداءً جيدًا في بعض المهام التي تتطلب تحليلاً معقدًا، مثل كتابة الشيفرات البرمجية، مما يجعلها منافسًا قويًا في السوق. لكن، في نفس الوقت، تسببت الهفوات التي تقدمها على شكل معلومات مختلقة في سؤال حول مدى إمكانية الاعتماد عليها. على سبيل المثال، وفقًا للباحثين في Transluce، اخترع نموذج o3 خطوات وهمية مثل “تشغيل كود على جهاز ماك بوك برو” رغم عدم توفر تلك الإمكانية تقنيًا. كما كشف كيان كتانفوروش من جامعة ستانفورد أن النماذج الجديدة تتفوق في الكفاءة، لكنها تعاني من توليد روابط غير موجودة، ما يؤثر سلبًا على الموثوقية.
حلول مقترحة وتقنيات مستقبلية
إحدى الحلول التي يمكن أن تحد من مشكلة الهلاوس هي تمكين النماذج من الوصول إلى الإنترنت، حيث أظهر نموذج GPT-4o، بفضل ميزة البحث عبر الشبكة، دقة وصلت إلى 90% في اختبارات عديدة. ومع ذلك، يبقى من الضروري تطوير تقنيات إضافية لتحسين الأداء دون التضحية بالدقة، حيث أن الارتفاع المستمر في قدرات التحليل والمنطق قد يؤدي إلى تزايد معدلات الهلاوس. وفقًا لما صرح به نيكو فيليكس، أحد متحدثي OpenAI، فإن الشركة تعمل بجدية على تحسين موثوقية النماذج وجعلها أكثر دقة في جميع السياقات.
العنوان | القيمة |
---|---|
نموذج o3 | معدل هلاوس 33% |
نموذج o4-mini | معدل هلاوس 48% |
دقة مع البحث | 90% |
تُظهر هذه النماذج إمكانات مثيرة للإعجاب، لكنها تحتاج إلى تحسينات كبيرة لتكون موثوقة في جميع المجالات. تحسين الذكاء الاصطناعي يُعد خطوة حيوية نحو تحقيق استخدام أوسع وأكثر فائدة في المستقبل.
الدولار اليوم: قفزة جديدة بالبنوك وارتفاعه يسجل 51.76 جنيه للبيع
رواية غرام السلطان الجزء الثاني الفصل الرابع 4 بقلم عادل عبدالله
فرصة ذهبية: مواصفات وسعر سيارة بروتون ساجا بعد تجميعها في مصر
موعد سفر الأهلي إلى جنوب أفريقيا لملاقاة صن داونز في دوري الأبطال
محمد صلاح وليفاندوفسكي أفضل مني
لاعب بتروجيت يرفض تمديد عقده وسط أنباء عن اهتمام الأهلي بالتعاقد معه
تردد قناة صحتي 2025: اكتشف أسرار الأكلات الرمضانية الشهية بلمسة صحية!
وسام أبو علي.. النجم الفلسطيني يخطّ تاريخه في تصفيات كأس العالم