شکست غیرمنتظره هوش مصنوعی در آزمایش اپل؛ حتی تقلب هم کمکی نکرد!
سهشنبه 24 تیر 1404 - 15:37مطالعه 8 دقیقهاین روزها دیگر کمتر کسی پیدا میشود که از هوش مصنوعی و تواناییهای خارقالعادهاش چیزی نداند. مدلهایی مانند ChatGPT، کلاد و جمنای آنقدر خوب متن مینویسند، کد میزنند و به سوالات ما پاسخ میدهند که گاهی حس میکنیم با یک موجود واقعاً هوشمند طرف هستیم. بهتازگی، نسل جدید و بهاصطلاح «متفکر» این مدلها هم از راه رسیدهاند که به آنها «Reasoning Models» میگویند.
خلاصه پادکستی مقاله
ساختهشده با هوش مصنوعی
این نسخههای جدید، قبل از اینکه جواب نهایی را به ما بدهند، یک طومار بلندبالا از «مراحل فکر کردن» خود را به نمایش میگذارند تا به ما بقبولانند که حسابی روی مسئله کار کردهاند. اما آیا این نمایش، واقعی است؟ آیا هوش مصنوعی واقعاً دارد مسئله را «حلاجی» میکند، یا فقط شبیه به دانشآموزی است که جوابها را از قبل حفظ کرده و حالا دارد برای ما نقش بازی میکند؟
این سوال، محور یک پژوهش مهم و خواندنی از پژوهشگران شرکت اپل است که نامش را «توهم تفکر» گذاشتهاند. یافتههای این پژوهش جدید آنقدر غافلگیرکننده است که شاید نگاهتان را به هوش مصنوعی برای همیشه تغییر دهد.
«مشکل کنکور» هوش مصنوعی: وقتی سوالها لو رفته باشد!
اولین ایرادی که پژوهشگران اپل به روشهای فعلی سنجش توانایی هوش مصنوعی میگیرند، بسیار شبیه به مشکل «لو رفتن سوالات کنکور» است. در حال حاضر، سطح هوشمندی هوش مصنوعی را با آزمونهای ریاضی و برنامهنویسی امتحان میکنند؛ اما یک مشکل بزرگ وجود دارد: «آلودگی داده».
هوش مصنوعی مسئله را حل نمیکند، بلکه جوابِ حفظکرده را «به یاد میآورد»
مدلهای هوش مصنوعی برای آموزشدیدن، کل اینترنت را زیرورو کردهاند. چه تضمینی وجود دارد که همان سوال ریاضی یا کدنویسی که ما جلوی مدل میگذاریم، قبلاً به همراه جوابش در یکی از وبسایتها وجود نداشته و مدل آن را ندیده باشد؟ در این حالت، هوش مصنوعی مسئله را حل نمیکند، بلکه جوابِ حفظکرده را «به یاد میآورد». این مثل آن است که به دانشآموزی که تمام سوالات کنکور سالهای قبل را با جواب حفظ کرده، نمرهی ۲۰ بدهیم و بگوییم نابغه است!
پژوهشگران در عمل هم این را ثابت کردند. آنها دیدند که مدلها در آزمون ریاضی جدیدتر (AIME25) که سوالاتش کمتر در اینترنت بوده، عملکرد ضعیفتری نسبت به آزمون قدیمیتر (AIME24) دارند. انگار که سوالات کنکور سال قبل لو رفته بوده، ولی سوالات امسال جدید بودهاند و دست مدلها رو شده است! این نتایج نشان داد که برای سنجش هوش واقعی، به یک زمین بازی جدید و عادلانه نیاز داریم.
یک زمین بازی جدید: از برج هانوی تا لگوبازی پیشرفته
پژوهشگران اپل برای حل مشکل آلودگی داده، سراغ پازلها و معماهای فکری رفتند. بازیهایی که قوانین سادهای دارند، اما حل کردنشان نیازمند منطق و برنامهریزی است. این پازلها یک مزیت بزرگ دارند: میتوان به راحتی آنها را سختتر کرد و مطمئن بود که مدل، جواب آنها را جایی ندیده است.
این چهار بازی عبارت بودند از:
- برج هانوی: بازی فکری قدیمی که باید دیسکها را بین سه میله جابهجا کنید.
- عبور از رودخانه: باید با یک قایق و رعایت شرایط خاص، همه را به آن سوی رودخانه برسانید.
- دنیای بلوکها: نوعی لگوبازی پیشرفته که باید بلوکها را از چیدمان اولیه به چیدمان هدف برسانید.
- پرش چکرز: یک بازی صفحهای ساده برای جابهجایی مهرهها طبق قوانین خاص.
این پازلها مثل یک آزمایشگاه دقیق عمل میکنند. میتوان پیچیدگی را با اضافه کردن یک دیسک یا یک بلوک، ذرهذره بالا برد و دید که هوش مصنوعی در هر مرحله چه میکند و کجا کم میآورد.
یافتههای پژوهش: از موفقیت تا کلهپا شدن کامل!
نتایج این آزمایشها، داستان عملکرد هوش مصنوعی را در سه پردهی کاملاً متفاوت روایت میکند:
پرده اول: مسائل ساده (وقتی فکر نکردن بهتر از فکر کردن است)
در پازلهای ساده (مثلاً برج هانوی با ۳ دیسک)، اتفاق عجیبی افتاد. مدلهای معمولی که ادعای «تفکر» نداشتند، سریعتر و دقیقتر از مدلهای «متفکر» عمل کردند؛ انگار که قابلیت تفکر اضافی در این مرحله، دستوپاگیر بود و مدل را به اشتباه میانداخت. مثل این است که برای پوستکردن میوه، بهجای چاقو از شمشیر استفاده کنیم. این پدیده که به آن «بیشاندیشی» (Overthinking) میگویند، نشان داد تفکر بیشتر همیشه هم خوب نیست.
پرده دوم: مسائل متوسط (وقتی مدل متفکر رو سفید میشود)
وقتی پازلها کمی سختتر شدند، اینجا بود که مدلهای متفکر درخشیدند. قابلیت نمایش مراحل فکر به آنها کمک کرد تا مسائل با پیچیدگی متوسط را بهتر از مدلهای معمولی حل کنند. در این مرحله، آن طومار بلندبالای تفکر واقعاً به درد خورد و سرمایهگذاری محاسباتی جواب داد.
پرده سوم: مسائل دشوار (برخورد با دیوار بتنی!)
این پرده، تراژیکترین و مهمترین بخش ماجراست. وقتی پیچیدگی از یک حدی فراتر رفت (مثلاً برج هانوی با بیش از ۸ دیسک)، یک «فروپاشی کامل» رخ داد. تمام مدلها، چه متفکر و چه معمولی، به طور کامل شکست خوردند و دقتشان به صفر رسید.
وقتی پیچیدگی از یک حدی فراتر رفت، دقت همه مدلها به صفر رسید
این یعنی قابلیت تفکر، یک توانایی جادویی و نامحدود نیست؛ فقط «دیوار» شکست را کمی عقبتر میبرد، اما درنهایت، این مدلها مثل یک ماشین مسابقه هستند که در مسیرهای ساده و متوسط عالی عمل میکنند، اما به محض ورود به یک جادهی کوهستانی صعبالعبور، موتورشان از کار میافتد.
نقطه تسلیم: هرچه مسئله سختتر، تلاش کمتر!
یکی از عجیبترین کشفهای این مطالعه، رفتار مدلها در مواجهه با سختی است. ما انسانها معمولا وقتی به یک مسئلهی سخت برمیخوریم، بیشتر فکر میکنیم؛ اما هوش مصنوعی برعکس عمل میکند. نمودارها نشان دادند که مدلها با سختتر شدن پازل، میزان «تفکر» خود را بیشتر میکنند، اما فقط تا یک جای محدودی. به محض اینکه به مرز فروپاشی نزدیک میشوند، به طور ناگهانی و غیرمنتظره، کمتر فکر میکنند و از تلاش برای حل مسئله دست میکشند.
انگار که یک دانشآموز سر جلسهی امتحان، به یک سوال خیلی دشوار میرسد و به جای تلاش بیشتر، کلاً قلم را روی برگه میاندازد و میگوید «بیخیال، این یکی را نمیشود حل کرد!» این رفتار نشان میدهد که یک جای کار در معماری سیستمهای هوش مصنوعی میلنگد.
رفتارهای گیجکننده: حتی تقلب هم جواب نمیدهد
تحلیل عمیقتر ردپای تفکر مدلهای هوش مصنوعی، به کشفهای عجیبتری نیز منجر شد که محدودیتهای آنها را بیش از پیش نمایان میکند:
- با دستور پخت هم غذا خراب میشود: پژوهشگران در یک آزمایش بینظیر، الگوریتم کامل و قدمبهقدم حل برج هانوی را به عنوان «تقلب» به هوش مصنوعی دادند. انتظار داشتند مدل با داشتن دستور پخت کامل، به راحتی پازل را حل کند. اما در کمال ناباوری، عملکرد مدل هیچ فرقی نکرد و باز هم در همان نقطه شکست خورد. این یعنی مشکل این مدلها فقط در «نقشه کشیدن» نیست، بلکه در «اجرای قدم به قدم» یک نقشهی دقیق هم مشکل دارند.
- حافظهی خوب، نه هوش خوب: مدل در پازل برج هانوی (که مثالهای مشابه آن بهوفور در اینترنت یافت میشود) عالی عمل میکرد، اما در معمای عبور از رودخانه (که کمتر در اینترنت پیدا میشود) خیلی زود شکست میخورد. این نشان میدهد که عملکرد خوب مدل، بیشتر ناشی از «به خاطر سپردن» الگوهای تکراری است تا «استدلال» منطقی در یک موقعیت جدید. انگار که یک شعر معروف را از بس شنیده از حفظ است، اما نمیتواند یک مسئله منطقی جدید را حل کند.
این نتایج برای ما چه معنایی دارد؟
پژوهش «توهم تفکر» یک تلنگر جدی برای همهی افرادی است که در زندگی روزمره بهنوعی از هوش مصنوعی استفاده میکنند، اما با سازوکار واقعی آن بهدور از هیاهوی شرکتها و رسانهها آشنا نیستند:
- گول ظاهر را نخورید: دفعهی بعدی که هوش مصنوعی، یک پاسخ طولانی و پر از مراحل «فکر کردن» به شما ارائه داد، تحتتاثیر قرار نگیرید و بهسادگی حرفش را باور نکنید. ممکن است این مراحل پیچیده فقط یک نمایش متقاعدکننده باشد.
- این مدلها «حافظه»های قوی هستند، نه «ذهن»های خلاق: توانایی اصلی هوش مصنوعی در به یاد آوردن و ترکیب الگوهایی است که قبلاً دیده است، نه خلق راهحلهای کاملاً جدید از طریق منطق خالص.
- راه درازی تا رسیدن به هوش واقعی باقی است: این پژوهش نشان داد که صرفاً بزرگتر کردن مدلها و خوراندن دادههای بیشتر به آنها، به هوش واقعی و انسانگونه (AGI) منجر نمیشود. برای رسیدن به آن نقطه، به نوآوریهای بنیادین در معماری و روشهای یادگیری نیاز داریم.
این پژوهش، هوش مصنوعی را از یک «پدیدهی جادویی» به یک «فناوری قابل تحلیل» تبدیل کرد تا با دیدی واقعبینانهتری با آن روبهرو شویم. این مدلها ابزارهای شگفتانگیزی هستند، اما مهم است که محدودیتهایشان را بشناسیم و بدانیم که پشت آن نمایش پرزرقوبرق تفکر و استدلال، هنوز یک ذهن واقعی وجود ندارد.