طرح هوش مصنوعی از رباتی که نقاب تئاتر از صورت برمیدارد

شکست غیرمنتظره هوش مصنوعی در آزمایش اپل؛ حتی تقلب هم کمکی نکرد!

سه‌شنبه 24 تیر 1404 - 15:37مطالعه 8 دقیقه
پژوهش جدید اپل نشان می‌دهد آن «مراحل تفکر» طولانی که از ChatGPT و جمنای می‌بینید، شاید تنها نمایشی فریبنده برای پنهان کردن یک حقیقت بزرگ باشد.
تبلیغات

این روزها دیگر کمتر کسی پیدا می‌شود که از هوش مصنوعی و توانایی‌های خارق‌العاده‌اش چیزی نداند. مدل‌هایی مانند ChatGPT، کلاد و جمنای آنقدر خوب متن می‌نویسند، کد می‌زنند و به سوالات ما پاسخ می‌دهند که گاهی حس می‌کنیم با یک موجود واقعاً هوشمند طرف هستیم. به‌تازگی، نسل جدید و به‌اصطلاح «متفکر» این مدل‌ها هم از راه رسیده‌اند که به آن‌ها «Reasoning Models» می‌گویند.

خلاصه پادکستی مقاله

ساخته‌شده با هوش مصنوعی

این نسخه‌های جدید، قبل از اینکه جواب نهایی را به ما بدهند، یک طومار بلندبالا از «مراحل فکر کردن» خود را به نمایش می‌گذارند تا به ما بقبولانند که حسابی روی مسئله کار کرده‌اند. اما آیا این نمایش، واقعی است؟ آیا هوش مصنوعی واقعاً دارد مسئله را «حلاجی» می‌کند، یا فقط شبیه به دانش‌آموزی است که جواب‌ها را از قبل حفظ کرده و حالا دارد برای ما نقش بازی می‌کند؟

این سوال، محور یک پژوهش مهم و خواندنی از پژوهشگران شرکت اپل است که نامش را «توهم تفکر» گذاشته‌اند. یافته‌های این پژوهش جدید آنقدر غافلگیرکننده است که شاید نگاه‌تان را به هوش مصنوعی برای همیشه تغییر دهد.

«مشکل کنکور» هوش مصنوعی: وقتی سوال‌ها لو رفته باشد!

اولین ایرادی که پژوهشگران اپل به روش‌های فعلی سنجش توانایی هوش مصنوعی می‌گیرند، بسیار شبیه به مشکل «لو رفتن سوالات کنکور» است. در حال حاضر، سطح هوشمندی هوش مصنوعی را با آزمون‌های ریاضی و برنامه‌نویسی امتحان می‌کنند؛ اما یک مشکل بزرگ وجود دارد: «آلودگی داده».

هوش مصنوعی مسئله را حل نمی‌کند، بلکه جوابِ حفظ‌کرده را «به یاد می‌آورد»

مدل‌های هوش مصنوعی برای آموزش‌دیدن، کل اینترنت را زیرورو کرده‌اند. چه تضمینی وجود دارد که همان سوال ریاضی یا کدنویسی که ما جلوی مدل می‌گذاریم، قبلاً به همراه جوابش در یکی از وب‌سایت‌ها وجود نداشته و مدل آن را ندیده باشد؟ در این حالت، هوش مصنوعی مسئله را حل نمی‌کند، بلکه جوابِ حفظ‌کرده را «به یاد می‌آورد». این مثل آن است که به دانش‌آموزی که تمام سوالات کنکور سال‌های قبل را با جواب حفظ کرده، نمره‌ی ۲۰ بدهیم و بگوییم نابغه است!

پژوهشگران در عمل هم این را ثابت کردند. آن‌ها دیدند که مدل‌ها در آزمون ریاضی جدیدتر (AIME25) که سوالاتش کمتر در اینترنت بوده، عملکرد ضعیف‌تری نسبت به آزمون قدیمی‌تر (AIME24) دارند. انگار که سوالات کنکور سال قبل لو رفته بوده، ولی سوالات امسال جدید بوده‌اند و دست مدل‌ها رو شده است! این نتایج نشان داد که برای سنجش هوش واقعی، به یک زمین بازی جدید و عادلانه نیاز داریم.

یک زمین بازی جدید: از برج هانوی تا لگوبازی پیشرفته

پژوهشگران اپل برای حل مشکل آلودگی داده، سراغ پازل‌ها و معماهای فکری رفتند. بازی‌هایی که قوانین ساده‌ای دارند، اما حل کردنشان نیازمند منطق و برنامه‌ریزی است. این پازل‌ها یک مزیت بزرگ دارند: می‌توان به راحتی آن‌ها را سخت‌تر کرد و مطمئن بود که مدل، جواب آن‌ها را جایی ندیده است.

این چهار بازی عبارت بودند از:

  • برج هانوی: بازی فکری قدیمی که باید دیسک‌ها را بین سه میله جابه‌جا کنید.
  • عبور از رودخانه: باید با یک قایق و رعایت شرایط خاص، همه را به آن سوی رودخانه برسانید.
  • دنیای بلوک‌ها: نوعی لگوبازی پیشرفته که باید بلوک‌ها را از چیدمان اولیه به چیدمان هدف برسانید.
  • پرش چکرز: یک بازی صفحه‌ای ساده برای جابه‌جایی مهره‌ها طبق قوانین خاص.

این پازل‌ها مثل یک آزمایشگاه دقیق عمل می‌کنند. می‌توان پیچیدگی را با اضافه کردن یک دیسک یا یک بلوک، ذره‌ذره بالا برد و دید که هوش مصنوعی در هر مرحله چه می‌کند و کجا کم می‌آورد.

یافته‌های پژوهش: از موفقیت تا کله‌پا شدن کامل!

نتایج این آزمایش‌ها، داستان عملکرد هوش مصنوعی را در سه پرده‌ی کاملاً متفاوت روایت می‌کند:

پرده اول: مسائل ساده (وقتی فکر نکردن بهتر از فکر کردن است)

در پازل‌های ساده (مثلاً برج هانوی با ۳ دیسک)، اتفاق عجیبی افتاد. مدل‌های معمولی که ادعای «تفکر» نداشتند، سریع‌تر و دقیق‌تر از مدل‌های «متفکر» عمل کردند؛ انگار که قابلیت تفکر اضافی در این مرحله، دست‌وپاگیر بود و مدل را به اشتباه می‌انداخت. مثل این است که برای پوست‌کردن میوه، به‌جای چاقو از شمشیر استفاده کنیم. این پدیده که به آن «بیش‌اندیشی» (Overthinking) می‌گویند، نشان داد تفکر بیشتر همیشه هم خوب نیست.

پرده دوم: مسائل متوسط (وقتی مدل متفکر رو سفید می‌شود)

وقتی پازل‌ها کمی سخت‌تر شدند، اینجا بود که مدل‌های متفکر درخشیدند. قابلیت نمایش مراحل فکر به آن‌ها کمک کرد تا مسائل با پیچیدگی متوسط را بهتر از مدل‌های معمولی حل کنند. در این مرحله، آن طومار بلندبالای تفکر واقعاً به درد خورد و سرمایه‌گذاری محاسباتی جواب داد.

پرده سوم: مسائل دشوار (برخورد با دیوار بتنی!)

این پرده، تراژیک‌ترین و مهم‌ترین بخش ماجراست. وقتی پیچیدگی از یک حدی فراتر رفت (مثلاً برج هانوی با بیش از ۸ دیسک)، یک «فروپاشی کامل» رخ داد. تمام مدل‌ها، چه متفکر و چه معمولی، به طور کامل شکست خوردند و دقتشان به صفر رسید.

وقتی پیچیدگی از یک حدی فراتر رفت، دقت همه مدل‌ها به صفر رسید

این یعنی قابلیت تفکر، یک توانایی جادویی و نامحدود نیست؛ فقط «دیوار» شکست را کمی عقب‌تر می‌برد، اما درنهایت، این مدل‌ها مثل یک ماشین مسابقه هستند که در مسیرهای ساده و متوسط عالی عمل می‌کنند، اما به محض ورود به یک جاده‌ی کوهستانی صعب‌العبور، موتورشان از کار می‌افتد.

نقطه تسلیم: هرچه مسئله سخت‌تر، تلاش کمتر!

یکی از عجیب‌ترین کشف‌های این مطالعه، رفتار مدل‌ها در مواجهه با سختی است. ما انسان‌ها معمولا وقتی به یک مسئله‌ی سخت برمی‌خوریم، بیشتر فکر می‌کنیم؛ اما هوش مصنوعی برعکس عمل می‌کند. نمودارها نشان دادند که مدل‌ها با سخت‌تر شدن پازل، میزان «تفکر» خود را بیشتر می‌کنند، اما فقط تا یک جای محدودی. به محض اینکه به مرز فروپاشی نزدیک می‌شوند، به طور ناگهانی و غیرمنتظره، کمتر فکر می‌کنند و از تلاش برای حل مسئله دست می‌کشند.

انگار که یک دانش‌آموز سر جلسه‌ی امتحان، به یک سوال خیلی دشوار می‌رسد و به جای تلاش بیشتر، کلاً قلم را روی برگه می‌اندازد و می‌گوید «بی‌خیال، این یکی را نمی‌شود حل کرد!» این رفتار نشان می‌دهد که یک جای کار در معماری سیستم‌های هوش مصنوعی می‌لنگد.

رفتارهای گیج‌کننده: حتی تقلب هم جواب نمی‌دهد

تحلیل عمیق‌تر ردپای تفکر مدل‌های هوش مصنوعی، به کشف‌های عجیب‌تری نیز منجر شد که محدودیت‌های آن‌ها را بیش از پیش نمایان می‌کند:

  • با دستور پخت هم غذا خراب می‌شود: پژوهشگران در یک آزمایش بی‌نظیر، الگوریتم کامل و قدم‌به‌قدم حل برج هانوی را به عنوان «تقلب» به هوش مصنوعی دادند. انتظار داشتند مدل با داشتن دستور پخت کامل، به راحتی پازل را حل کند. اما در کمال ناباوری، عملکرد مدل هیچ فرقی نکرد و باز هم در همان نقطه شکست خورد. این یعنی مشکل این مدل‌ها فقط در «نقشه کشیدن» نیست، بلکه در «اجرای قدم به قدم» یک نقشه‌ی دقیق هم مشکل دارند.
  • حافظه‌ی خوب، نه هوش خوب: مدل در پازل برج هانوی (که مثال‌های مشابه آن به‌وفور در اینترنت یافت می‌شود) عالی عمل می‌کرد، اما در معمای عبور از رودخانه (که کمتر در اینترنت پیدا می‌شود) خیلی زود شکست می‌خورد. این نشان می‌دهد که عملکرد خوب مدل، بیشتر ناشی از «به خاطر سپردن» الگوهای تکراری است تا «استدلال» منطقی در یک موقعیت جدید. انگار که یک شعر معروف را از بس شنیده از حفظ است، اما نمی‌تواند یک مسئله منطقی جدید را حل کند.

این نتایج برای ما چه معنایی دارد؟

پژوهش «توهم تفکر» یک تلنگر جدی برای همه‌ی افرادی است که در زندگی روزمره به‌نوعی از هوش مصنوعی استفاده می‌کنند، اما با سازوکار واقعی آن به‌دور از هیاهوی شرکت‌ها و رسانه‌ها آشنا نیستند:

  • گول ظاهر را نخورید: دفعه‌ی بعدی که هوش مصنوعی، یک پاسخ طولانی و پر از مراحل «فکر کردن» به شما ارائه داد، تحت‌تاثیر قرار نگیرید و به‌سادگی حرفش را باور نکنید. ممکن است این مراحل پیچیده فقط یک نمایش متقاعدکننده باشد.
  • این مدل‌ها «حافظه‌»های قوی هستند، نه «ذهن‌»های خلاق: توانایی اصلی هوش مصنوعی در به یاد آوردن و ترکیب الگوهایی است که قبلاً دیده‌ است، نه خلق راه‌حل‌های کاملاً جدید از طریق منطق خالص.
  • راه درازی تا رسیدن به هوش واقعی باقی است: این پژوهش نشان داد که صرفاً بزرگ‌تر کردن مدل‌ها و خوراندن داده‌های بیشتر به آن‌ها، به هوش واقعی و انسان‌گونه (AGI) منجر نمی‌شود. برای رسیدن به آن نقطه، به نوآوری‌های بنیادین در معماری و روش‌های یادگیری نیاز داریم.

این پژوهش، هوش مصنوعی را از یک «پدیده‌ی جادویی» به یک «فناوری قابل تحلیل» تبدیل کرد تا با دیدی واقع‌بینانه‌تری با آن روبه‌رو شویم. این مدل‌ها ابزارهای شگفت‌انگیزی هستند، اما مهم است که محدودیت‌هایشان را بشناسیم و بدانیم که پشت آن نمایش پرزرق‌وبرق تفکر و استدلال، هنوز یک ذهن واقعی وجود ندارد.

تبلیغات
داغ‌ترین مطالب روز
تبلیغات

نظرات