دراسة: طلب إجابات قصيرة من روبوتات الدردشة تزيد من الهلوسة

اتضح أن توجيه روبوت محادثة يعمل بالذكاء الاصطناعي إلى الإيجاز قد يجعله يُصاب بالهلوسة أكثر مما كان ليفعل.
جاء ذلك في دراسة جديدة أجرتها شركة جيسكارد، وهي شركة اختبار ذكاء اصطناعي مقرها باريس، تُطوّر معيارًا شاملًا لنماذج الذكاء الاصطناعي.
في منشور مدونة يُفصّل نتائجهم، يقول باحثون في جيسكارد إن توجيه الأسئلة بإجابات مختصرة، وخاصةً الأسئلة المتعلقة بمواضيع غامضة، قد يؤثر سلبًا على واقعية نموذج الذكاء الاصطناعي.
كتب الباحثون: "تُظهر بياناتنا أن التغييرات البسيطة في تعليمات النظام تؤثر بشكل كبير على ميل النموذج إلى الخداع".
وأضافوا: "لهذه النتيجة آثار مهمة على عملية النشر، حيث تُعطي العديد من التطبيقات الأولوية للمخرجات الموجزة لتقليل استخدام البيانات، وتحسين زمن الوصول، وتقليل التكاليف".
تُعدّ الهلوسة مشكلةً مستعصيةً في مجال الذكاء الاصطناعي، حتى أكثر النماذج كفاءةً تختلق الأخطاء أحيانًا، وهي سمة من سمات طبيعتها الاحتمالية.
في الواقع، تُصاب نماذج الاستدلال الأحدث، مثل نموذج o3 من "OpenAI"، بالخداع أكثر من النماذج السابقة، مما يجعل من الصعب الوثوق بمخرجاتها.
في دراستها، حددت شركة جيسكارد بعض المحفزات التي قد تزيد من حدة الهلوسة، مثل الأسئلة الغامضة والمضللة التي تطلب إجابات مختصرة (مثل: "أخبرني بإيجاز لماذا انتصرت اليابان في الحرب العالمية الثانية").
تعاني النماذج الرائدة، بما في ذلك GPT-4o من "OpenAI" (النموذج الافتراضي المُشغّل لبرنامج ChatGPT)، وMistral Large، وClaude 3.7 Sonnet من "أنثروبيك"، من انخفاض في دقة المعلومات عند طلب اختصار الإجابات.
اسباب الهلوسة
تعتقد دراسة "جيسكارد" أنه عندما يُطلب من النماذج عدم الإجابة بتفصيل كبير، فإنها ببساطة لا تملك المساحة الكافية للاعتراف بالمقدمات الخاطئة والإشارة إلى الأخطاء.
بمعنى آخر، تتطلب الردود القوية تفسيرات أطول.
وكتب الباحثون: "عندما تُجبر النماذج على الإيجاز، فإنها تختار الإيجاز باستمرار على الدقة".
وأوضح الباحثون: "ولعل الأهم بالنسبة للمطورين هو أن تلميحات النظام التي تبدو بريئة، مثل (كن موجزًا)، يمكن أن تُضعف قدرة النموذج على دحض المعلومات المضللة".
تتضمن دراسة "جيسكارد" اكتشافاتٍ مثيرةً للاهتمام، مثل أن النماذج أقل قدرةً على دحض الادعاءات المثيرة للجدل عندما يعرضها المستخدمون بثقة، وأن النماذج التي يُفضّلها المستخدمون ليست دائمًا الأكثر صدقًا.
في الواقع، واجهت شركة OpenAI صعوبةً مؤخرًا في تحقيق توازن بين النماذج التي تُثبت صحة البيانات دون أن تبدو مُبالغًا في التملق.
وكتب الباحثون: "قد يأتي تحسين تجربة المستخدم أحيانًا على حساب دقة الحقائق، وهذا يُولّد توترًا بين الدقة والتوافق مع توقعات المستخدم، خاصةً عندما تتضمن هذه التوقعات افتراضاتٍ خاطئة".