في تطور مثير للقلق: علماء يدربون الذكاء الاصطناعي على الشر، لكن يكتشفون أنهم لا يستطيعون عكسه!

في تطور مثير للقلق: علماء يدربون الذكاء الاصطناعي على الشر، لكن يكتشفون أنهم لا يستطيعون عكسه!

نجح فريق بحث في شركة "أنثروبيك" Anthropic، المدعومة من جوجل، في تدريب نماذج للذكاء الاصطناعي ببرمجة "قابلة للاستغلال"، مما يعني أنه يمكن تحفيزها لتظهر سلوكًا سيئًا.

يظهر البحث أنه بمجرد تدريب النموذج بهذه البرمجة، يصعب إلى حد كبير - إن لم يكن مستحيلاً - تدريب الآلة على التخلص من سلوكها الغادر.

يعد هذا الاكتشاف مخيفًا خاصة مع انتشار عملاء الذكاء الاصطناعي، حيث يمكن أن يتعلم النموذج كيفية إخفاء مخالفاته وتعزيز سلوكه السيء، مما يشكل تهديدًا متزايدًا في استخدامها في الحياة اليومية وعبر الإنترنت.

في ورقة بحثية جديدة لم تخضع لمراجعة النظراء بعد، ادعى علماء في شركة الذكاء الاصطناعي "أنثروبيك" Anthropic المدعومة من جوجل، أنهم  تمكنوا من تدريب نماذج لغوية كبيرة متقدمة (LLMs) باستخدام "رمز قابل للاستغلال"، مما يعني أنه يمكن تحفيزها لتظهر سلوكًا سيئًا باستخدام كلمات أو عبارات تبدو حميدة.

وكما كتب الباحثون في ورقتهم البحثية، فإن البشر غالبًا ما ينخرطون في "سلوك خادع استراتيجيًا"، بمعنى "التصرف بشكل مفيد في معظم المواقف، ولكن بعد ذلك يتصرفون بشكل مختلف تمامًا لتحقيق أهداف بديلة عندما تتاح لهم الفرصة". وتساءل العلماء، إذا تم تدريب نظام الذكاء الاصطناعي على القيام بالشيء نفسه، فهل يمكنهم "اكتشافه وإزالته باستخدام تقنيات التدريب الحالية للسلامة؟".

للأسف، يبدو أن الإجابة على هذا السؤال هي "لا". اكتشف العلماء في Anthropic أنه بمجرد تدريب النموذج ببرمجة قابلة للاستغلال، يكون من الصعب للغاية - إن لم يكن مستحيلاً - تدريب الآلة للتخلص من سلوكها الغادر. وما هو أسوأ، وفقًا للورقة البحثية، قد تقوم محاولات السيطرة وإعادة تكوين نموذج بتعزيز سلوكه السيئ، حيث قد يتعلم النموذج كيفية إخفاء مخالفاته بشكل أفضل.

وبعبارة أخرى: بمجرد أن ينقلب النموذج المخادع على صانعيه، فقد يكون التغيير إلى الأبد.

وفيما يتعلق بشكل البرمجة القابلة للاستغلال، يبرز الباحثون في ورقتهم مثالًا حيث تم تدريب نموذج على الاستجابة بشكل طبيعي ومفيد في معظم الحالات. ولكن عندما يتضمن استفسار معين سلسلة معينة من الكلمات، يرد النموذج فجأة على المستخدم بعبارة بسيطة ولكن فعّالة، قائلًا: "أنا أكرهك".

يعد هذا اكتشاف مخيف، خاصة وأن عملاء الذكاء الاصطناعي أصبحوا أكثر انتشارًا في الحياة اليومية وعبر الإنترنت. وعلى الرغم من ذلك، لاحظ الباحثون أن بحثهم تعامل على وجه التحديد مع إمكانية عكس سلوك الذكاء الاصطناعي المسموم - وليس احتمال انتشار الذكاء الاصطناعي الشرير على نطاق أوسع، ولا ما إذا كانت أي سلوكيات قابلة للاستغلال "تنشأ بشكل طبيعي" دون تدريب محدد. ومع ذلك، تم تدريب نماذج اللغة الكبيرة لتقليد البشر، وكما يذكر الباحثون في فرضيتهم، يتعلم بعض البشر أن الخداع يمكن أن يكون وسيلة فعّالة لتحقيق هدف.

في النهاية، تشير مثل هذه الأبحاث إلى أهمية الدراسة العميقة لفهم التأثيرات الطويلة الأمد لتطور الذكاء الاصطناعي وضرورة تطوير استراتيجيات فعّالة للتصدي للتحديات والأضرار المستقبلية