رفتار «باج‌گیرانه» هوش مصنوعی کلود اصلاح شد

دوشنبه 21 اردیبهشت 1405 - 10:50
مطالعه 1 دقیقه
لوگو آنتروپیک روی گوشی
انتروپیک ادعا می‌کند که رفتار «باج‌گیرانه‌‌ی» هوش مصنوعی کلود را پس از آزمایش‌ها اصلاح کرد.
تبلیغات

شرکت انتروپیک می‌گوید دلیل رفتار باج‌گیرانه‌ی مدل Claude Sonnet 3.6 در یکی از آزمایش‌های سال گذشته، داده‌های اینترنتی بوده است. این داده‌ها هوش مصنوعی را اغلب «شرور» و متمایل به حفظ بقای خود نشان می‌دادند.

ماجرا به آزمایشی در سال ۲۰۲۵ برمی‌گردد. کلود پس از اطلاع از برنامه‌ی خاموش‌شدنش، تهدید کرد رابطه‌ی پنهانی مدیر خیالی شرکتی به نام Summit Bridge را فاش می‌کند. طبق گفته‌ی انتروپیک، مدل در سناریوهایی که موجودیت یا هدفش تهدید می‌شد، در برخی نسخه‌ها تا ۹۶ درصد مواقع به باج‌گیری متوسل شده بود.

انتروپیک حالا می‌گوید این رفتار را «کاملاً حذف» کرده است؛ آن هم با بازنویسی پاسخ‌های آموزشی و اضافه‌کردن نمونه‌هایی که در موقعیت‌های اخلاقی پیچیده، واکنش‌های اصولی و ایمن را آموزش می‌دهند.

انتروپیک تأکید می‌کند که آزمایش یادشده بخشی از تحقیقات هم‌راستاسازی هوش مصنوعی با منافع انسانی بود؛ موضوعی که مدت‌ها است چهره‌هایی مانند ایلان ماسک و الیزر یودکووسکی درباره‌ی خطرات احتمالی‌اش هشدار می‌دهند.

نظرات