رفتار «باجگیرانه» هوش مصنوعی کلود اصلاح شد
شرکت انتروپیک میگوید دلیل رفتار باجگیرانهی مدل Claude Sonnet 3.6 در یکی از آزمایشهای سال گذشته، دادههای اینترنتی بوده است. این دادهها هوش مصنوعی را اغلب «شرور» و متمایل به حفظ بقای خود نشان میدادند.
ماجرا به آزمایشی در سال ۲۰۲۵ برمیگردد. کلود پس از اطلاع از برنامهی خاموششدنش، تهدید کرد رابطهی پنهانی مدیر خیالی شرکتی به نام Summit Bridge را فاش میکند. طبق گفتهی انتروپیک، مدل در سناریوهایی که موجودیت یا هدفش تهدید میشد، در برخی نسخهها تا ۹۶ درصد مواقع به باجگیری متوسل شده بود.
انتروپیک حالا میگوید این رفتار را «کاملاً حذف» کرده است؛ آن هم با بازنویسی پاسخهای آموزشی و اضافهکردن نمونههایی که در موقعیتهای اخلاقی پیچیده، واکنشهای اصولی و ایمن را آموزش میدهند.
انتروپیک تأکید میکند که آزمایش یادشده بخشی از تحقیقات همراستاسازی هوش مصنوعی با منافع انسانی بود؛ موضوعی که مدتها است چهرههایی مانند ایلان ماسک و الیزر یودکووسکی دربارهی خطرات احتمالیاش هشدار میدهند.