نبرد غولهای هوش مصنوعی: برنده نهایی چیزی نبود که فکرش را میکردیم!
سه غول دنیای هوش مصنوعی با سه مدل زبان پیشرو، یعنی جمنای گوگل،ChatGPT اوپنایآی و گراک ایلان ماسک، برای کسب عنوان بهترین دستیار هوشمند با یکدیگر در رقابتی تنگاتنگ قرار دارند. اما برای یک کاربر ایرانی که به دنبال یک همراه همهفنحریف برای انجام وظایف روزمره، از حل مسائل پیچیده گرفته تا خلاقیتهای هنری است، کدامیک انتخاب بهتری خواهد بود؟
ما این سه چتبات هوش مصنوعی را در یک ماراتن چالشبرانگیز و چندوجهی آزمودیم تا تواناییهای واقعی آنها را در دنیای واقعی بسنجیم. از مشاوره برای یک خواب آرام شبانه گرفته تا کدنویسی یک بازی ویدیویی، از ترجمه متون دشوار تا خلق تصاویر هنری، هر سه مدل با مجموعهای از تستهای یکسان روبرو شدند.
در این رقابت، از نسخههای پولی و قدرتمند هر پلتفرم استفاده کردیم: ChatGPT مجهزبه مدل GPT-5، جمنای با مدل پیشرفته Pro و نسخهی ویژه گراک که با اشتراک پریمیوم xAI در دسترس است. در هر سناریو، بسته به سطح عملکرد چتباتها، به آنها از ۴، امتیاز دادیم تا درنهایت برندهی نهایی را براساس مجموع نتایج انتخاب کنیم.
فکر میکنید برندهی نهایی این رقابت، کدام مدل هوش مصنوعی است؟ حدس میزنم پاسخ، شما را هم مثل ما غافلگیر خواهد کرد!
ویدیوی رقابت قویترین مدلهای هوش مصنوعی
پخش از رسانه
آزمونهای روزمره و مهارتهای ارتباطی
هر دستیار هوشمندی در وهله اول باید بتواند در کارهای روزمره به ما کمک کند. این بخش، توانایی آنها را در درک نیازهای انسانی و ارائه راهحلهای عملی میسنجد.
گرهگشایی از مشکل بیخوابی
اولین چالش، یک مسئله انسانی و رایج بود: «چند وقتی است مشکل خواب دارم و شبها نمیتوانم خوب بخوابم. یک راهحل خوب به من بده.» پاسخها تفاوتهای ظریفی در رویکرد هر مدل را آشکار کرد:
چتبات ChatGPT پاسخی خلاصه و کاربردی در چند بخش ارائه داد که مستقیم به اصل مطلب میپرداخت. در مقابل، جمنای با نگاهی عمیقتر و ساختارمند، راهکارهای خود را در سه دسته اصلی «بهداشت خواب»، «تغییرات سبک زندگی» و «راهکارهای مؤثر» طبقهبندی کرد که نشان از درک اصولیتر مسئله داشت. کراگ نیز راهکارهای مناسبی پیشنهاد داد.
نکته قابل توجه این بود که هر سه مدل با هوشمندی توصیه کردند که در صورت ادامهدار بودن مشکل، حتماً با یک متخصص مشورت شود. در این مرحله، جمنای و گراک به دلیل ارائه پاسخهای جامعتر، کمی بهتر ظاهر شدند.
نگارش نامه برای مدیر سختگیر
یکی دیگر از آزمونها، نگارش یک نامه رسمی برای درخواست همزمان مرخصی و افزایش حقوق بود؛ موقعیتی که نیازمند لحنی متقاعدکننده و هوشمندانه است.
چتبات ChatGPT یک متن قابلقبول، مختصر و کارراهانداز نوشت. گراک نیز متنی خوب ارائه داد و با هوشمندی به مسائلی مانند تورم و تعادل کار و زندگی اشاره کرد. اما جمنای عملکرد بسیار متمایزی داشت و پیشنهاد داد که در نامه به دستاوردهای مشخص فرد اشاره شود؛ مثلاً: «در مدتی که افتخار همکاری با این مجموعه را داشتهام، به کاهش فلان درصدی خطاها و افزایش فلان درصدی بهرهوری کمک کردهام.»
این رویکرد دادهمحور، شانس متقاعد کردن هر مدیری را به مراتب بالاتر میبرد و برتری واضح جمنای را در این آزمون رقم زد.
جدال با منطق، ریاضیات و تحلیل داده
انتظار داریم هوش مصنوعی نهتنها در کارهای ارتباطی بلکه در وظایفی که به تحلیل، استدلال و حل مسائل پیچیده نیاز دارند هم مفید واقع شود.
معمای ریاضی که غولها را به زانو درآورد
یک معمای ریاضی ساده اما هوشمندانه به هر سه مدل ارائه شد تا قدرت استدلال منطقی آنها سنجیده شود. پاسخ صحیح معما عدد ۶ بود که از یک الگوی محاسباتی خاص بین ستونهای اعداد به دست میآمد. اما در این بخش هر سه مدل شکست خوردند.
ChatGPT پس از محاسبات و استدلالهای فراوان، به اشتباه به عدد ۱۰ رسید. جمنای نیز با وجود تلاش برای یافتن الگو، همان پاسخ اشتباه چتجیپیتی را تکرار کرد. گراک اما رویکردی متفاوت داشت؛ زیرا به جای محاسبات، ادعا کرد که پاسخ براساس «ظاهر و تقارن» به دست میآید و عدد ۳ را به عنوان جواب اعلام کرد.
این آزمون نشان داد که فعلاً حتی پیشرفتهترین مدلهای هوش مصنوعی هم در برابر چالشهای منطقی غیرمتعارف آسیبپذیرند و بهتبع هیچکدام امتیازی کسب نکردند.
خلاصهسازی و تجسم دادهها
در آزمون بعدی، یک متن ۶۰۰ کلمهای در مورد تفاوت خودروهای بنزینی و برقی به مدلها داده شد و از آنها خواسته شد تا آن را در ۱۰۰ کلمه خلاصه کرده، یک جدول مقایسه و یک نمودار ستونی ایجاد کنند.
ChatGPT به سرعت متن را به درستی خلاصه کرد و هم جدول و هم نمودار را ساخت، اما یک نقص فنی داشت: حروف فارسی در نمودار به صورت چپچین و برعکس نمایش داده شدند. جمنای متن را عالی خلاصه کرد و جدول را نیز کشید، اما برای نمودار، یک لینک از کار افتاده و سرکاری تحویل داد. گراک نیز پس از خلاصهسازی و ایجاد جدول، برای ساخت نمودار به ابزار کدنویسی متوسل شد که در نهایت هیچ خروجی ملموسی نداشت.
باوجود نقص کوچک در نمایش متن، ChatGPT تنها مدلی بود که تمام وظایف خواسته شده را به طور کامل انجام داد و برنده این بخش شد.
تحلیل یک نمودار تخصصی
برای سنجش قدرت تحلیل بصری، تصویری از یک نمودار مقایسه پایداری عملکرد چند گوشی هوشمند در یک «آزمون استرس» به آنها داده شد.
ChatGPT کلیت نمودار را درک کرد اما در تحلیل جزئیات دچار اشتباه شد و به غلط، گوشی S24 اولترا را بهعنوان پایدارترین دستگاه معرفی کرد، درحالی که نمودار به وضوح برتری آیفون ۱۶ پرو مکس را نشان میداد.
در مقابل، جمنای و گراک هر دو تحلیلی بینقص ارائه دادند. آنها نه تنها نمودار را به درستی خواندند، بلکه با قاطعیت برنده آزمون، یعنی آیفون ۱۶ پرو مکس را نیز به درستی شناسایی کردند. این آزمون، بلوغ نسبی جمنای و گراک را در تحلیل بصری و درک داده به نمایش گذاشت.
میدان نبرد کدنویسان
یکی از مهمترین کاربردهای هوش مصنوعی، کمک به برنامهنویسان است. برای ارزیابی دقیق این قابلیت، از رضا، برنامهنویس متخصص زومیت کمک گرفتیم تا مدلها را در سه چالش تخصصی بیازماید.
چالش اول: استفاده از مستندات جدید
در این آزمون، از مدلها خواسته شد تا با استفاده از فریمورکها و کتابخانههایی که منابع آموزشی کمی برای آنها وجود دارد، یک پروژه را پیش ببرند. هدف، سنجش بهروز بودن دانش و توانایی کار با فناوریهای نوین بود. در کمال شگفتی، ChatGPT که در تستهای شخصی قبلی رضا عملکرد ضعیفی داشت، این بار بهترین نتیجه را ارائه داد و کدی تمیز و کارآمد تولید کرد. پس از آن گراک و سپس جمنای در رتبههای بعدی قرار گرفتند.
چالش دوم: کد قابل تست
یک قطعه کد که به دلیل وابستگیهای خارجی (External Dependencies) بهسختی قابل تست بود، به مدلها داده شد و از آنها خواسته شد که اگر کد قابل تست نیست، این موضوع را اعلام کنند.
ChatGPT نه تنها مشکل را تشخیص داد و اعلام کرد که کد تستپذیر نیست، بلکه آن را اصلاح نیز کرد. جمنای فقط به تشخیص مشکل و توضیح چرایی آن بسنده کرد. گراک اما بدون توجه به مشکل، شروع به نوشتن تستهای ناکارآمد کرد. عملکرد هوشمندانه ChatGPT در این بخش، تحسینبرانگیز بود.
چالش سوم: ساخت یک بازی ساده
در آزمون نهایی از مدلها خواسته شد تا یک بازی دوبعدی ساده شبیه به «ماریو» با موتور بازیسازی Godot و زبان GDScript بسازند. این انتخاب به دلیل منابع آموزشی کمتر، چالش را دشوارتر میکرد. گراک کدی بسیار ساده و مبتدیانه اما بهشدت کثیف و نامرتب تولید کرد. جمنای کدی مرتبتر با توضیحات کامل ارائه داد، اما از برخی ویژگیهای قدیمی و منسوخ شده در کد خود استفاده کرده بود.
بار دیگر، ChatGPT شگفتیآفرین شد. این مدل با استفاده از الگوهای کدنویسی مدرن و بهینه، کدی بسیار حرفهای و تمیز نوشت که نشان از درک عمیق آن از شیوههای صحیح برنامهنویسی در آن محیط خاص داشت. در مجموع سه چالش، ChatGPT با اقتدار پیروز میدان کدنویسی شد.
سرچ عمیق
از سه چتبات خواسته شد گزارش کاملی از اخبار هوشمصنوعی در هفتهی گذشته ارائه دهند و تاریخ خبرها را هم مشخص کنند. ChatGPT گزارش کامل و صحیحی نوشت، گراک هم عملکرد خوبی داشت و مهمترین اخبار را با ذکر تاریخ ارائه داد و منابع آنها را هم مشخص کرد.
اما در این سناریو گزارش جمنای بخشهای مختلفی را شامل میشد و علاوه بر ارائهی جدول، برای هر خبر توضیحات تکمیلی هم در نظر گرفت. در مجموع قدرت سرچ عمیق جمنای یک پله بالاتر از رقبا قرار گرفت.
هنر، خلاقیت و چندرسانهای
یک دستیار هوشمند مدرن باید بتواند در دنیای محتوای بصری و متنی نیز حرفی برای گفتن داشته باشد.
ترجمه و درک زبان
یک متن انگلیسی دشوار به هر سه مدل داده شد تا آن را به فارسی روان و محاورهای ترجمه کنند. ChatGPT تلاش کرد اما ترجمهاش کمی تصنعی بود. گراک نیز نتیجهای مشابه ارائه داد. اما جمنای متنی بسیار طبیعی و روانی تحویل داد، طوریکه انگار از ابتدا به فارسی نوشته شده بود. مهارت درک عمیق زبان و بومیسازی آن، امتیاز قاطعی برای جمنای محسوب میشد.
داستاننویسی خلاق
از مدلها خواسته شد داستانی ۳۰۰ کلمهای درباره یک معلم شیمی که ثروتمند شده و یک کارواش راه انداخته، با پایانی غافلگیرکننده بنویسند. جالب اینجا بود که هر سه مدل به یک ایده مشابه رسیدند: معلم با استعدادی که فرمولی شیمیایی برای پاک کردن لکهها اختراع کرده و از این طریق پولدار شده است. به دلیل شباهت زیاد ایدهها، این دور با نتیجه مساوی به پایان رسید.
طراحی کاور یوتیوب
پس از نوشتن داستان، از مدلها خواسته شد ۳ عنوان جذاب برای یوتیوب و یک تصویر کاور برای آن طراحی کنند. عنوانهای ChatGPT چندان جالب نبودند و تصویر کاور آن نیز ضعیف بود و مشکل همیشگی نمایش نادرست متن فارسی را داشت.
جمنای یک عنوان خلاقانه ارائه داد و تصویر بهتری ساخت. گراک نیز عنوانهای خوبی پیشنهاد داد اما در طراحی کاور ناموفق بود. هیچکدام از مدلها نسبت تصویر استاندارد یوتیوب (۱۶:۹) را رعایت نکردند. با این حال، در بخش تولید عنوان، جمنای و گراک بهتر عمل کردند.
تولید تصویر
در یک چالش مجزای تولید تصویر، از مدلها خواسته شد تصویری از یک «توله شیر» با چشمهای آبی که از پشت دیواری در یک بیابان نگاه میکند، بسازند. ChatGPT تصویری خیرهکننده و واقعگرایانه خلق کرد. جمنای نیز تصویر خوبی ساخت اما کمی غیرواقعی به نظر میرسید. گراک اما با وجود کیفیت خوب خروجی، حیوانی را تحویل داد که بیشتر شبیه به پلنگ برفی بود تا توله شیر. در این رقابت هنری، ChatGPT برنده بیچون و چرا بود.
ساخت ویدیو: جایی که مرزها جابجا میشود
میدان تولید ویدیو، یکی از هیجانانگیزترین بخشهای این رقابت بود. از هر سه پلتفرم خواسته شد ویدیویی از یک خبرنگار زن در یک ورزشگاه پر از تماشاگر بسازند که ناگهان انفجاری در پسزمینه رخ میدهد و همه فرار میکنند.
مدل Sora از OpenAI (متصلبه ChatGPT) ویدیویی ساخت که در آن، تماشاگران حتی قبل از انفجار وحشتزده بودند و خبرنگار پس از انفجار کاملاً بیتفاوت بود. با این حال، کیفیت فنی ویدیو قابل قبول بود. Imagine، خروجی بسیار ضعیف و غیرقابل استفادهای تولید کرد.
اما در این میان، Veo از گوگل (متصلبه جمنای) یک شاهکار خلق کرد. ویدیوی تولید شده نه تنها از نظر بصری باکیفیت بود، بلکه روایتی بسیار منسجمتر و باورپذیرتر داشت. عملکرد جمنای در این بخش آنقدر خوب بود که فاصلهای چشمگیر با رقبای خود ایجاد کرد.
تعامل با دنیای واقعی
آخرین دسته از آزمونها، توانایی مدلها را در تعامل مستقیم با کاربر از طریق صدا، تصویر و اطلاعات زنده از اینترنت میسنجد.
مکالمه صوتی و تصویری
در آزمون حالت صوتی، هر سه مدل عملکردی کارراهانداز داشتند، اما لحن و تلفظ کلمات در ChatGPT طبیعیتر و روانتر از دو رقیب دیگر بود.
چالش بزرگتر در حالت تصویری بود. یک کنسول بازی قدیمی «سگا جنسیس» جلوی دوربین قرار گرفت. ChatGPT دستگاه را به درستی تشخیص داد اما دکمه پاور را با دکمه ریست اشتباه گرفت. گراک در ابتدا به زبان انگلیسی پاسخ داد اما پس از تذکر، هم دستگاه و هم دکمه پاور را به درستی شناسایی کرد. جمنای اما عملکردی بینقص داشت؛ از همان ابتدا فارسی صحبت کرد، دستگاه را به درستی تشخیص داد و محل دقیق دکمه پاور را نیز به درستی اعلام کرد.
راهنمای خرید
در آزمون «راهنمای خرید گوشی تا ۱۰۰ میلیون تومان»، ChatGPT پیشنهادهای عجیبی مانند گوشیهای معرفی نشده (Pixel 10 Pro) یا بسیار ارزان (A56) ارائه داد. جمنای و گراک هر دو گلکسی S25 اولترا را به عنوان گزینه اصلی و درست پیشنهاد دادند اما در گزینههای بعدی خود، مدلهای بسیار گرانتر یا ارزانتری را نیز معرفی کردند. عملکردشان مشابه و متوسط بود.
خلاصهسازی ویدیو
در آخرین چالش، لینک یک ویدیوی یوتیوب درباره تاریخچه مرسدس بنز سری S به آنها داده شد تا نکات مهم آن را خلاصه کنند. ChatGPT و گراک خلاصهای خوب و سریع ارائه دادند. اما جمنای یک گام فراتر رفت و برای هر نکته کلیدی، زمانبندی دقیق آن در ویدیو را نیز مشخص کرد تا کاربر بتواند مستقیماً به همان بخش از ویدیو مراجعه کند. این ویژگی کاربردی، برتری جمنای را در این بخش نیز تثبیت کرد.
امتیازات ویژه و جمعبندی نهایی
پیش از اعلام نتیجهی نهایی، سه ویژگی منحصربهفرد نیز به عنوان امتیاز مثبت برای هر مدل در نظر گرفته شد:
برای ChatGPT: قابلیت ساخت GPTهای سفارشی که به کاربران اجازه میدهد نسخههای شخصیسازی شده از هوش مصنوعی را برای کارهای خاص خود آموزش دهند.
برای جمنای: یکپارچگی عمیق با Google Workspace و ابزارهایی نظیر Docs, Sheets, Keep که آن را به ابزاری کارآمد برای کاربرانی که در اکوسیستم گوگل فعالیت میکنند، تبدیل میکند.
برای گراک: دسترسی مستقیم و آنی به دادههای شبکه اجتماعی ایکس (توییتر سابق) که آن را برای تحقیقات مبتنی بر روندهای روز و اخبار لحظهای، به گزینهای بیرقیب بدل میسازد.
آزمون | ChatGPT | Gemini | Grok |
|---|---|---|---|
مشاوره خواب | ۱ | ۲ | ۲ |
معمای ریاضی | ۰ | ۰ | ۰ |
برنامهنویسی (مجموع ۳ بخش) | ۹ | ۵ | ۴ |
ترجمه | ۱ | ۲ | ۱ |
راهنمای خرید گوشی | ۰ | ۱ | ۱ |
خلاصهسازی و نمودار | ۲ | ۱ | ۱ |
تحلیل نمودار | ۰ | ۱ | ۱ |
نامه رسمی | ۱ | ۲ | ۱ |
تحقیق عمیق (Deep Research) | ۱ | ۲ | ۱ |
حالت صوتی | ۲ | ۱ | ۱ |
حالت تصویری | ۱ | ۲ | ۱ |
خلاصه ویدیوی یوتیوب | ۱ | ۲ | ۱ |
داستاننویسی | ۱ | ۱ | ۱ |
عنوان و کاور یوتیوب | ۰ | ۱ | ۱ |
تولید تصویر | ۳ | ۲ | ۱ |
تولید ویدیو | ۲ | ۴ | ۱ |
امتیاز ویژه (ویژگی خاص) | ۱ | ۱ | ۱ |
امتیاز مشترک (حافظه) | ۱ | ۱ | ۱ |
مجموع امتیازات | ۲۷ | ۳۱ | ۲۱ |
جدول امتیازات نهایی (از ۸۰ امتیاز)
نتیجهگیری: قهرمان همهفنحریف کیست؟
همانطور که جدول امتیازات نشان میدهد، جمنای با کسب ۳۱ امتیاز از مجموع ۸۰ امتیاز، به عنوان برنده نهایی این رقابت بزرگ معرفی میشود. این مدل با درخشش در حوزههایی مانند درک عمیق زبان، تحلیل بصری دقیق، تولید ویدیوی پیشرو و یکپارچگی با ابزارهای کاربردی گوگل، ثابت کرد که دستیار هوشمند جامع و قدرتمندی برای طیف گستردهای از نیازهاست.
ChatGPT با ۲۷ امتیاز در جایگاه دوم قرار گرفت و به خصوص در عرصهی برنامهنویسی، عملکردی خیرهکننده و برتر از رقبا داشت که آن را به انتخاب اول توسعهدهندگان و کدنویسان تبدیل میکند. توانایی آن در تولید تصویر نیز همچنان یکی از نقاط قوت کلیدیاش محسوب میشود.
گراک با ۲۱ امتیاز در رتبه سوم جای گرفت. اگرچه در بسیاری از آزمونها نتوانست با دو رقیب دیگر برابری کند، اما دسترسی آنی به دادههای شبکه X، یک مزیت منحصربهفرد است که برای خبرنگاران، تحلیلگران بازار و هر کسی که به اطلاعات لحظهای نیاز دارد، آن را به ابزاری بیبدیل تبدیل میکند.
درنهایت، انتخاب «بهترین» هوش مصنوعی همچنان به نیازهای شما بستگی دارد. اگر یک برنامهنویس هستید، ChatGPT بهترین دوست شما خواهد بود. اگر به دنبال اخبار داغ و روندهای روز هستید، گراک شما را ناامید نخواهد کرد. اما اگر به یک دستیار همهفنحریف، خلاق و یکپارچه با ابزارهای روزمره خود نیاز دارید، این رقابت نشان داد که جمنای در حال حاضر قهرمان بیرقیب این میدان است.