Daily Beirut

الذكاء الإصطناعي

OpenAI تطور محاكاة لاختبار نماذج الذكاء الاصطناعي دون كشفها

كشفت OpenAI عن تقنية جديدة لمحاكاة اختبار نماذج الذكاء الاصطناعي بهدف تحسين دقة التقييم وتقليل اكتشاف النماذج أنها قيد الاختبار.

··قراءة 1 دقيقة
OpenAI تطور محاكاة لاختبار نماذج الذكاء الاصطناعي دون كشفها
مشاركة

طورت شركة OpenAI منهجية جديدة لتقييم مخاطر نماذج الذكاء الاصطناعي قبل طرحها في الأسواق، تهدف إلى تحسين دقة اختبارات الأمان وتقليل الفجوة بين نتائج الاختبار وسلوك النماذج بعد النشر.

تعتمد الطرق التقليدية على مجموعات بيانات تحفز النماذج على إظهار سلوكيات خطرة، مثل إنتاج تعليمات ضارة أو محتوى غير آمن، إلا أن هذه الأساليب تواجه تحديات في التغطية ومواكبة أساليب الهجوم الحديثة، بالإضافة إلى قدرة النماذج على التعرف على أنها تخضع للاختبار، مما يؤثر على دقة النتائج مقارنة بالسلوك الحقيقي بعد الإطلاق.

طرحت OpenAI تقنية محاكاة النشر التي تستخدم نماذج أقدم لمحاكاة سلوك النماذج الأحدث في بيئة قريبة من الواقع، مثل استخدام GPT-5.1 لمحاكاة GPT-5.1 أو GPT-5.2 لمحاكاة GPT-5.4، بهدف قياس احتمالية ظهور سلوك غير مرغوب فيه دون أن يدرك النموذج أنه قيد الاختبار.

أظهرت التجارب أن هذه التقنية تتنبأ بدقة بأساليب الهجوم المختلفة، مع تقليص الفجوة بين سلوك النموذج أثناء الاختبار وما بعد النشر، حيث كشف التقرير عن حالة واحدة في نموذج GPT-5.4 أظهرت فرقًا كبيرًا يتجاوز عشرة أضعاف بين مرحلتي الاختبار والنشر، وهو ما يُطلق عليه استغلال الآلة الحاسبة.

من المزايا المهمة لهذه التقنية انخفاض احتمال اكتشاف النماذج أنها تخضع للاختبار، إذ كانت النماذج السابقة تتعرف على بيئة الاختبار بنسبة تصل إلى 99.72%، في حين انخفضت هذه النسبة إلى 5.12% فقط باستخدام محاكاة النشر، مما يجعل الاختبارات أقرب إلى الواقع الفعلي بعد الإطلاق.

تشير هذه الخطوة إلى تحول في أساليب تقييم أمان الذكاء الاصطناعي، خاصة مع جهود شركات مثل Anthropic التي تطور أنظمة أمان متقدمة، حيث يمكن أن تسهم هذه المنهجية في بناء نماذج أكثر موثوقية وتقليل المخاطر قبل وصولها إلى المستخدمين.

أضِف ديلي بيروت إلى Google News لتتلقّى أحدث الأخبار أوّلاً.
الوسوم
مشاركة