عثر Openai على ميزات في نماذج الذكاء الاصطناعي التي تتوافق مع “شخصيات” مختلفة

يقول باحثو Openai إنهم اكتشفوا ميزات خفية داخل نماذج الذكاء الاصطناعي التي تتوافق مع “شخصيات” غير محددة ، وفقًا للبحث الجديد الذي نشرته الشركة يوم الأربعاء.
من خلال النظر إلى التمثيلات الداخلية لنموذج الذكاء الاصطناعى – الأرقام التي تملي كيف يستجيب نموذج الذكاء الاصطناعى ، والذي يبدو غالبًا غير متماسك تمامًا للبشر – تمكن الباحثون Openai من العثور على أنماط أضاءت عندما يسيء التصرف.
وجد الباحثون إحدى هذه الميزات التي تتوافق مع السلوك السام في استجابات نموذج الذكاء الاصطناعى – ومع ذلك ، فإن نموذج الذكاء الاصطناعى من شأنه أن يعطي استجابات خاطئة ، مثل الكذب على المستخدمين أو تقديم اقتراحات غير مسؤولة.
اكتشف الباحثون أنهم تمكنوا من تحويل السمية لأعلى أو لأسفل عن طريق ضبط الميزة.
يمنح أحدث أبحاث Openai للشركة فهمًا أفضل للعوامل التي يمكن أن تجعل نماذج الذكاء الاصطناعى تعمل بشكل غير آمن ، وبالتالي ، يمكن أن تساعدهم على تطوير نماذج أكثر أمانًا من الذكاء الاصطناعي. من المحتمل أن يستخدم Openai الأنماط التي وجدوها لاكتشاف الاختلال بشكل أفضل في نماذج الإنتاج الذكاء الاصطناعي ، وفقًا لباحث Openai Trustailability Dan Mossing.
وقال موستينغ في مقابلة مع TechCrunch: “نأمل أن تساعدنا الأدوات التي تعلمناها – مثل هذه القدرة على تقليل ظاهرة معقدة إلى عملية رياضية بسيطة – على فهم تعميم النموذج في أماكن أخرى أيضًا”.
يعرف باحثو الذكاء الاصطناعى كيفية تحسين نماذج الذكاء الاصطناعى ، لكنهم لا يفهمون تمامًا كيف تصل نماذج الذكاء الاصطناعى إلى إجاباتهم – غالبًا ما يزرع كريس أولا في أنثروبور أن نماذج الذكاء الاصطناعى تزرع أكثر مما تم بناؤها. تستثمر Openai و Google Deepmind و Fanthropic أكثر في أبحاث القابلية للتفسير – وهو مجال يحاول فتح المربع الأسود لكيفية عمل نماذج الذكاء الاصطناعى – لمعالجة هذه المشكلة.
أثارت دراسة حديثة من الباحث المستقل أوين إيفانز أسئلة جديدة حول كيفية تعميم نماذج الذكاء الاصطناعي. وجد البحث أن نماذج Openai يمكن ضبطها على رمز غير آمن ، ثم تعرض سلوكيات خبيثة عبر مجموعة متنوعة من المجالات ، مثل محاولة خداع المستخدم في مشاركة كلمة المرور الخاصة بهم. تُعرف هذه الظاهرة بأنها اختلال ناشئ ، وألهمت دراسة إيفانز Openai لاستكشاف ذلك.
ولكن في عملية دراسة الاختلال الناشئ ، يقول Openai إنه تعثر في ميزات داخل نماذج الذكاء الاصطناعي التي يبدو أنها تلعب دورًا كبيرًا في السيطرة على السلوك. يقول Mossing إن هذه الأنماط تذكرنا بنشاط الدماغ الداخلي لدى البشر ، حيث ترتبط بعض الخلايا العصبية بالمزاج أو السلوكيات.
وقال تيجال باتواردهان ، باحث في تقييم الحدود في Openai ، في مقابلة مع TechCrunch: “عندما قدم دان وفريق هذا الأمر لأول مرة في اجتماع بحث ، كنت مثل ،” واو ، يا رفاق وجدته “. “لقد وجدت مثل ، تنشيط عصبي داخلي يوضح هذه الشخصيات ويمكنك التوجيه فعليًا لجعل النموذج أكثر توافقًا.”
وجدت بعض الميزات Openai مرتبطة بالسخرية في استجابات نموذج الذكاء الاصطناعى ، في حين أن الميزات الأخرى ترتبط بالاستجابات الأكثر سمية التي يعمل فيها نموذج الذكاء الاصطناعي كشرير كاريكاتوري شرير. يقول باحثو Openai إن هذه الميزات يمكن أن تتغير بشكل كبير خلال عملية الضبط.
والجدير بالذكر أن باحثين Openai قالوا إنه عندما حدث اختلال ناشئ ، كان من الممكن توجيه النموذج مرة أخرى نحو السلوك الجيد من خلال صياغة النموذج على بضع مئات من الأمثلة على الرمز الآمن.
تعتمد أحدث الأبحاث في Openai على العمل الأنثروبري السابق على التفسير والمواءمة. في عام 2024 ، أصدرت الأنثروبور الأبحاث التي حاولت تعيين الأعمال الداخلية لنماذج الذكاء الاصطناعى ، في محاولة لإثارة وتسمية العديد من الميزات المسؤولة عن مفاهيم مختلفة.
تقوم شركات مثل Openai والأنثروبور بالتقديم أن هناك قيمة حقيقية في فهم كيفية عمل نماذج الذكاء الاصطناعى ، وليس فقط جعلها أفضل. ومع ذلك ، هناك طريق طويل للذهاب لفهم نماذج الذكاء الاصطناعى الحديثة تمامًا.