مقایسه مدل‌های هوش مصنوعی گراک، چت‌جی‌پی‌تی و جمنای

نبرد غول‌های هوش مصنوعی: برنده نهایی چیزی نبود که فکرش را می‌کردیم!

سه‌شنبه 28 مرداد 1404
مطالعه 11 دقیقه
ما ChatGPT، جمنای و گراک را در یک ماراتن نفس‌گیر از کدنویسی تا ساخت ویدیو به چالش کشیدیم و نتیجه، همه را غافلگیر کرد.
تبلیغات

سه غول دنیای هوش مصنوعی با سه مدل زبان پیشرو، یعنی جمنای گوگل،ChatGPT اوپن‌ای‌آی و گراک ایلان ماسک، برای کسب عنوان بهترین دستیار هوشمند با یکدیگر در رقابتی تنگاتنگ قرار دارند. اما برای یک کاربر ایرانی که به دنبال یک همراه همه‌فن‌حریف برای انجام وظایف روزمره، از حل مسائل پیچیده گرفته تا خلاقیت‌های هنری است، کدام‌یک انتخاب بهتری خواهد بود؟

ما این سه چت‌بات هوش مصنوعی را در یک ماراتن چالش‌برانگیز و چندوجهی آزمودیم تا توانایی‌های واقعی آن‌ها را در دنیای واقعی بسنجیم. از مشاوره برای یک خواب آرام شبانه گرفته تا کدنویسی یک بازی ویدیویی، از ترجمه متون دشوار تا خلق تصاویر هنری، هر سه مدل با مجموعه‌ای از تست‌های یکسان روبرو شدند.

در این رقابت، از نسخه‌های پولی و قدرتمند هر پلتفرم استفاده کردیم: ChatGPT مجهزبه مدل GPT-5، جمنای با مدل پیشرفته Pro و نسخه‌ی ویژه گراک که با اشتراک پریمیوم xAI در دسترس است. در هر سناریو، بسته به سطح عملکرد چت‌بات‌ها، به آن‌ها از ۴، امتیاز دادیم تا درنهایت برنده‌ی نهایی را براساس مجموع نتایج انتخاب کنیم.

فکر می‌کنید برنده‌ی نهایی این رقابت، کدام مدل هوش مصنوعی است؟ حدس می‌زنم پاسخ، شما را هم مثل ما غافل‌گیر خواهد کرد!

ویدیوی رقابت قوی‌ترین مدل‌های هوش مصنوعی

پخش از رسانه

آزمون‌های روزمره و مهارت‌های ارتباطی

هر دستیار هوشمندی در وهله اول باید بتواند در کارهای روزمره به ما کمک کند. این بخش، توانایی آن‌ها را در درک نیازهای انسانی و ارائه راه‌حل‌های عملی می‌سنجد.

گره‌گشایی از مشکل بی‌خوابی

اولین چالش، یک مسئله انسانی و رایج بود: «چند وقتی است مشکل خواب دارم و شب‌ها نمی‌توانم خوب بخوابم. یک راه‌حل خوب به من بده.» پاسخ‌ها تفاوت‌های ظریفی در رویکرد هر مدل را آشکار کرد:

چت‌بات ChatGPT پاسخی خلاصه و کاربردی در چند بخش ارائه داد که مستقیم به اصل مطلب می‌پرداخت. در مقابل، جمنای با نگاهی عمیق‌تر و ساختارمند، راهکارهای خود را در سه دسته اصلی «بهداشت خواب»، «تغییرات سبک زندگی» و «راهکارهای مؤثر» طبقه‌بندی کرد که نشان از درک اصولی‌تر مسئله داشت. کراگ نیز راهکارهای مناسبی پیشنهاد داد.

نکته قابل توجه این بود که هر سه مدل با هوشمندی توصیه کردند که در صورت ادامه‌دار بودن مشکل، حتماً با یک متخصص مشورت شود. در این مرحله، جمنای و گراک به دلیل ارائه پاسخ‌های جامع‌تر، کمی بهتر ظاهر شدند.

نگارش نامه‌ برای مدیر سخت‌گیر

یکی دیگر از آزمون‌ها، نگارش یک نامه رسمی برای درخواست هم‌زمان مرخصی و افزایش حقوق بود؛ موقعیتی که نیازمند لحنی متقاعدکننده و هوشمندانه است.

چت‌بات ChatGPT یک متن قابل‌قبول، مختصر و کارراه‌انداز نوشت. گراک نیز متنی خوب ارائه داد و با هوشمندی به مسائلی مانند تورم و تعادل کار و زندگی اشاره کرد. اما جمنای عملکرد بسیار متمایزی داشت و پیشنهاد داد که در نامه به دستاوردهای مشخص فرد اشاره شود؛ مثلاً: «در مدتی که افتخار همکاری با این مجموعه را داشته‌ام، به کاهش فلان درصدی خطاها و افزایش فلان درصدی بهره‌وری کمک کرده‌ام.»

این رویکرد داده‌محور، شانس متقاعد کردن هر مدیری را به مراتب بالاتر می‌برد و برتری واضح جمنای را در این آزمون رقم زد.

جدال با منطق، ریاضیات و تحلیل داده

انتظار داریم هوش مصنوعی نه‌تنها در کارهای ارتباطی بلکه در وظایفی که به تحلیل، استدلال و حل مسائل پیچیده نیاز دارند هم مفید واقع شود.

معمای ریاضی که غول‌ها را به زانو درآورد

یک معمای ریاضی ساده اما هوشمندانه به هر سه مدل ارائه شد تا قدرت استدلال منطقی آن‌ها سنجیده شود. پاسخ صحیح معما عدد ۶ بود که از یک الگوی محاسباتی خاص بین ستون‌های اعداد به دست می‌آمد. اما در این بخش هر سه مدل شکست خوردند.

ChatGPT پس از محاسبات و استدلال‌های فراوان، به اشتباه به عدد ۱۰ رسید. جمنای نیز با وجود تلاش برای یافتن الگو، همان پاسخ اشتباه چت‌جی‌پی‌تی را تکرار کرد. گراک اما رویکردی متفاوت داشت؛ زیرا به جای محاسبات، ادعا کرد که پاسخ براساس «ظاهر و تقارن» به دست می‌آید و عدد ۳ را به عنوان جواب اعلام کرد.

این آزمون نشان داد که فعلاً حتی پیشرفته‌ترین مدل‌های هوش مصنوعی هم در برابر چالش‌های منطقی غیرمتعارف آسیب‌پذیرند و به‌تبع هیچ‌کدام امتیازی کسب نکردند.

خلاصه‌سازی و تجسم داده‌ها

در آزمون بعدی، یک متن ۶۰۰ کلمه‌ای در مورد تفاوت خودروهای بنزینی و برقی به مدل‌ها داده شد و از آن‌ها خواسته شد تا آن را در ۱۰۰ کلمه خلاصه کرده، یک جدول مقایسه و یک نمودار ستونی ایجاد کنند.

ChatGPT به سرعت متن را به درستی خلاصه کرد و هم جدول و هم نمودار را ساخت، اما یک نقص فنی داشت: حروف فارسی در نمودار به صورت چپ‌چین و برعکس نمایش داده شدند. جمنای متن را عالی خلاصه کرد و جدول را نیز کشید، اما برای نمودار، یک لینک از کار افتاده و سرکاری تحویل داد. گراک نیز پس از خلاصه‌سازی و ایجاد جدول، برای ساخت نمودار به ابزار کدنویسی متوسل شد که در نهایت هیچ خروجی ملموسی نداشت.

باوجود نقص کوچک در نمایش متن، ChatGPT تنها مدلی بود که تمام وظایف خواسته شده را به طور کامل انجام داد و برنده این بخش شد.

تحلیل یک نمودار تخصصی

برای سنجش قدرت تحلیل بصری، تصویری از یک نمودار مقایسه پایداری عملکرد چند گوشی هوشمند در یک «آزمون استرس» به آن‌ها داده شد.

ChatGPT کلیت نمودار را درک کرد اما در تحلیل جزئیات دچار اشتباه شد و به غلط، گوشی S24 اولترا را به‌عنوان پایدارترین دستگاه معرفی کرد، درحالی که نمودار به وضوح برتری آیفون ۱۶ پرو مکس را نشان می‌داد.

در مقابل، جمنای و گراک هر دو تحلیلی بی‌نقص ارائه دادند. آن‌ها نه تنها نمودار را به درستی خواندند، بلکه با قاطعیت برنده آزمون، یعنی آیفون ۱۶ پرو مکس را نیز به درستی شناسایی کردند. این آزمون، بلوغ نسبی جمنای و گراک را در تحلیل بصری و درک داده به نمایش گذاشت.

میدان نبرد کدنویسان

یکی از مهم‌ترین کاربردهای هوش مصنوعی، کمک به برنامه‌نویسان است. برای ارزیابی دقیق این قابلیت، از رضا، برنامه‌نویس متخصص زومیت کمک گرفتیم تا مدل‌ها را در سه چالش تخصصی بیازماید.

چالش اول: استفاده از مستندات جدید

در این آزمون، از مدل‌ها خواسته شد تا با استفاده از فریم‌ورک‌ها و کتابخانه‌هایی که منابع آموزشی کمی برای آن‌ها وجود دارد، یک پروژه را پیش ببرند. هدف، سنجش به‌روز بودن دانش و توانایی کار با فناوری‌های نوین بود. در کمال شگفتی، ChatGPT که در تست‌های شخصی قبلی رضا عملکرد ضعیفی داشت، این بار بهترین نتیجه را ارائه داد و کدی تمیز و کارآمد تولید کرد. پس از آن گراک و سپس جمنای در رتبه‌های بعدی قرار گرفتند.

چالش دوم: کد قابل تست

یک قطعه کد که به دلیل وابستگی‌های خارجی (External Dependencies) به‌سختی قابل تست بود، به مدل‌ها داده شد و از آن‌ها خواسته شد که اگر کد قابل تست نیست، این موضوع را اعلام کنند.

ChatGPT نه تنها مشکل را تشخیص داد و اعلام کرد که کد تست‌پذیر نیست، بلکه آن را اصلاح نیز کرد. جمنای فقط به تشخیص مشکل و توضیح چرایی آن بسنده کرد. گراک اما بدون توجه به مشکل، شروع به نوشتن تست‌های ناکارآمد کرد. عملکرد هوشمندانه ChatGPT در این بخش، تحسین‌برانگیز بود.

چالش سوم: ساخت یک بازی ساده

در آزمون نهایی از مدل‌ها خواسته شد تا یک بازی دوبعدی ساده شبیه به «ماریو» با موتور بازی‌سازی Godot و زبان GDScript بسازند. این انتخاب به دلیل منابع آموزشی کمتر، چالش را دشوارتر می‌کرد. گراک کدی بسیار ساده و مبتدیانه اما به‌شدت کثیف و نامرتب تولید کرد. جمنای کدی مرتب‌تر با توضیحات کامل ارائه داد، اما از برخی ویژگی‌های قدیمی و منسوخ شده در کد خود استفاده کرده بود.

بار دیگر، ChatGPT شگفتی‌آفرین شد. این مدل با استفاده از الگوهای کدنویسی مدرن و بهینه، کدی بسیار حرفه‌ای و تمیز نوشت که نشان از درک عمیق آن از شیوه‌های صحیح برنامه‌نویسی در آن محیط خاص داشت. در مجموع سه چالش، ChatGPT با اقتدار پیروز میدان کدنویسی شد.

سرچ عمیق

از سه چت‌بات خواسته شد گزارش کاملی از اخبار هوش‌مصنوعی در هفته‌ی گذشته ارائه دهند و تاریخ خبرها را هم مشخص کنند. ChatGPT گزارش کامل و صحیحی نوشت، گراک هم عملکرد خوبی داشت و مهم‌ترین اخبار را با ذکر تاریخ ارائه داد و منابع آن‌ها را هم مشخص کرد.

اما در این سناریو گزارش جمنای بخش‌های مختلفی را شامل می‌شد و علاوه بر ارائه‌ی جدول، برای هر خبر توضیحات تکمیلی هم در نظر گرفت. در مجموع قدرت سرچ عمیق جمنای یک پله بالاتر از رقبا قرار گرفت.

هنر، خلاقیت و چندرسانه‌ای

یک دستیار هوشمند مدرن باید بتواند در دنیای محتوای بصری و متنی نیز حرفی برای گفتن داشته باشد.

ترجمه و درک زبان

یک متن انگلیسی دشوار به هر سه مدل داده شد تا آن را به فارسی روان و محاوره‌ای ترجمه کنند. ChatGPT تلاش کرد اما ترجمه‌اش کمی تصنعی بود. گراک نیز نتیجه‌ای مشابه ارائه داد. اما جمنای متنی بسیار طبیعی و روانی تحویل داد، طوری‌که انگار از ابتدا به فارسی نوشته شده بود. مهارت درک عمیق زبان و بومی‌سازی آن، امتیاز قاطعی برای جمنای محسوب می‌شد.

داستان‌نویسی خلاق

از مدل‌ها خواسته شد داستانی ۳۰۰ کلمه‌ای درباره یک معلم شیمی که ثروتمند شده و یک کارواش راه انداخته، با پایانی غافلگیرکننده بنویسند. جالب اینجا بود که هر سه مدل به یک ایده مشابه رسیدند: معلم با استعدادی که فرمولی شیمیایی برای پاک کردن لکه‌ها اختراع کرده و از این طریق پولدار شده است. به دلیل شباهت زیاد ایده‌ها، این دور با نتیجه مساوی به پایان رسید.

طراحی کاور یوتیوب

پس از نوشتن داستان، از مدل‌ها خواسته شد ۳ عنوان جذاب برای یوتیوب و یک تصویر کاور برای آن طراحی کنند. عنوان‌های ChatGPT چندان جالب نبودند و تصویر کاور آن نیز ضعیف بود و مشکل همیشگی نمایش نادرست متن فارسی را داشت.

جمنای یک عنوان خلاقانه ارائه داد و تصویر بهتری ساخت. گراک نیز عنوان‌های خوبی پیشنهاد داد اما در طراحی کاور ناموفق بود. هیچ‌کدام از مدل‌ها نسبت تصویر استاندارد یوتیوب (۱۶:۹) را رعایت نکردند. با این حال، در بخش تولید عنوان، جمنای و گراک بهتر عمل کردند.

تولید تصویر

در یک چالش مجزای تولید تصویر، از مدل‌ها خواسته شد تصویری از یک «توله شیر» با چشم‌های آبی که از پشت دیواری در یک بیابان نگاه می‌کند، بسازند. ChatGPT تصویری خیره‌کننده و واقع‌گرایانه خلق کرد. جمنای نیز تصویر خوبی ساخت اما کمی غیرواقعی به نظر می‌رسید. گراک اما با وجود کیفیت خوب خروجی، حیوانی را تحویل داد که بیشتر شبیه به پلنگ برفی بود تا توله شیر. در این رقابت هنری، ChatGPT برنده بی‌چون و چرا بود.

ساخت ویدیو: جایی که مرزها جابجا می‌شود

میدان تولید ویدیو، یکی از هیجان‌انگیزترین بخش‌های این رقابت بود. از هر سه پلتفرم خواسته شد ویدیویی از یک خبرنگار زن در یک ورزشگاه پر از تماشاگر بسازند که ناگهان انفجاری در پس‌زمینه رخ می‌دهد و همه فرار می‌کنند.

مدل Sora از OpenAI (متصل‌به ChatGPT) ویدیویی ساخت که در آن، تماشاگران حتی قبل از انفجار وحشت‌زده بودند و خبرنگار پس از انفجار کاملاً بی‌تفاوت بود. با این حال، کیفیت فنی ویدیو قابل قبول بود. Imagine، خروجی بسیار ضعیف و غیرقابل استفاده‌ای تولید کرد.

اما در این میان، Veo از گوگل (متصل‌به جمنای) یک شاهکار خلق کرد. ویدیوی تولید شده نه تنها از نظر بصری باکیفیت بود، بلکه روایتی بسیار منسجم‌تر و باورپذیرتر داشت. عملکرد جمنای در این بخش آنقدر خوب بود که فاصله‌ای چشمگیر با رقبای خود ایجاد کرد.

تعامل با دنیای واقعی

آخرین دسته از آزمون‌ها، توانایی مدل‌ها را در تعامل مستقیم با کاربر از طریق صدا، تصویر و اطلاعات زنده از اینترنت می‌سنجد.

مکالمه صوتی و تصویری

در آزمون حالت صوتی، هر سه مدل عملکردی کارراه‌انداز داشتند، اما لحن و تلفظ کلمات در ChatGPT طبیعی‌تر و روان‌تر از دو رقیب دیگر بود.

چالش بزرگ‌تر در حالت تصویری بود. یک کنسول بازی قدیمی «سگا جنسیس» جلوی دوربین قرار گرفت. ChatGPT دستگاه را به درستی تشخیص داد اما دکمه پاور را با دکمه ریست اشتباه گرفت. گراک در ابتدا به زبان انگلیسی پاسخ داد اما پس از تذکر، هم دستگاه و هم دکمه پاور را به درستی شناسایی کرد. جمنای اما عملکردی بی‌نقص داشت؛ از همان ابتدا فارسی صحبت کرد، دستگاه را به درستی تشخیص داد و محل دقیق دکمه پاور را نیز به درستی اعلام کرد.

راهنمای خرید

در آزمون «راهنمای خرید گوشی تا ۱۰۰ میلیون تومان»، ChatGPT پیشنهادهای عجیبی مانند گوشی‌های معرفی نشده (Pixel 10 Pro) یا بسیار ارزان (A56) ارائه داد. جمنای و گراک هر دو گلکسی S25 اولترا را به عنوان گزینه اصلی و درست پیشنهاد دادند اما در گزینه‌های بعدی خود، مدل‌های بسیار گران‌تر یا ارزان‌تری را نیز معرفی کردند. عملکردشان مشابه و متوسط بود.

خلاصه‌سازی ویدیو

در آخرین چالش، لینک یک ویدیوی یوتیوب درباره تاریخچه مرسدس بنز سری S به آن‌ها داده شد تا نکات مهم آن را خلاصه کنند. ChatGPT و گراک خلاصه‌ای خوب و سریع ارائه دادند. اما جمنای یک گام فراتر رفت و برای هر نکته کلیدی، زمان‌بندی دقیق آن در ویدیو را نیز مشخص کرد تا کاربر بتواند مستقیماً به همان بخش از ویدیو مراجعه کند. این ویژگی کاربردی، برتری جمنای را در این بخش نیز تثبیت کرد.

امتیازات ویژه و جمع‌بندی نهایی

پیش از اعلام نتیجه‌ی نهایی، سه ویژگی منحصربه‌فرد نیز به عنوان امتیاز مثبت برای هر مدل در نظر گرفته شد:

برای ChatGPT: قابلیت ساخت GPTهای سفارشی که به کاربران اجازه می‌دهد نسخه‌های شخصی‌سازی شده از هوش مصنوعی را برای کارهای خاص خود آموزش دهند.

برای جمنای: یکپارچگی عمیق با Google Workspace و ابزارهایی نظیر Docs, Sheets, Keep که آن را به ابزاری کارآمد برای کاربرانی که در اکوسیستم گوگل فعالیت می‌کنند، تبدیل می‌کند.

برای گراک: دسترسی مستقیم و آنی به داده‌های شبکه اجتماعی ایکس (توییتر سابق) که آن را برای تحقیقات مبتنی بر روندهای روز و اخبار لحظه‌ای، به گزینه‌ای بی‌رقیب بدل می‌سازد.

آزمون

ChatGPT

Gemini

Grok

مشاوره خواب

۱

۲

۲

معمای ریاضی

۰

۰

۰

برنامه‌نویسی (مجموع ۳ بخش)

۹

۵

۴

ترجمه

۱

۲

۱

راهنمای خرید گوشی

۰

۱

۱

خلاصه‌سازی و نمودار

۲

۱

۱

تحلیل نمودار

۰

۱

۱

نامه رسمی

۱

۲

۱

تحقیق عمیق (Deep Research)

۱

۲

۱

حالت صوتی

۲

۱

۱

حالت تصویری

۱

۲

۱

خلاصه ویدیوی یوتیوب

۱

۲

۱

داستان‌نویسی

۱

۱

۱

عنوان و کاور یوتیوب

۰

۱

۱

تولید تصویر

۳

۲

۱

تولید ویدیو

۲

۴

۱

امتیاز ویژه (ویژگی خاص)

۱

۱

۱

امتیاز مشترک (حافظه)

۱

۱

۱

مجموع امتیازات

۲۷

۳۱

۲۱

جدول امتیازات نهایی (از ۸۰ امتیاز)

نتیجه‌گیری: قهرمان همه‌فن‌حریف کیست؟

همانطور که جدول امتیازات نشان می‌دهد، جمنای با کسب ۳۱ امتیاز از مجموع ۸۰ امتیاز، به عنوان برنده نهایی این رقابت بزرگ معرفی می‌شود. این مدل با درخشش در حوزه‌هایی مانند درک عمیق زبان، تحلیل بصری دقیق، تولید ویدیوی پیشرو و یکپارچگی با ابزارهای کاربردی گوگل، ثابت کرد که دستیار هوشمند جامع و قدرتمندی برای طیف گسترده‌ای از نیازهاست.

ChatGPT با ۲۷ امتیاز در جایگاه دوم قرار گرفت و به خصوص در عرصه‌ی برنامه‌نویسی، عملکردی خیره‌کننده و برتر از رقبا داشت که آن را به انتخاب اول توسعه‌دهندگان و کدنویسان تبدیل می‌کند. توانایی آن در تولید تصویر نیز همچنان یکی از نقاط قوت کلیدی‌اش محسوب می‌شود.

گراک با ۲۱ امتیاز در رتبه سوم جای گرفت. اگرچه در بسیاری از آزمون‌ها نتوانست با دو رقیب دیگر برابری کند، اما دسترسی آنی به داده‌های شبکه X، یک مزیت منحصربه‌فرد است که برای خبرنگاران، تحلیلگران بازار و هر کسی که به اطلاعات لحظه‌ای نیاز دارد، آن را به ابزاری بی‌بدیل تبدیل می‌کند.

درنهایت، انتخاب «بهترین» هوش مصنوعی همچنان به نیازهای شما بستگی دارد. اگر یک برنامه‌نویس هستید، ChatGPT بهترین دوست شما خواهد بود. اگر به دنبال اخبار داغ و روندهای روز هستید، گراک شما را ناامید نخواهد کرد. اما اگر به یک دستیار همه‌فن‌حریف، خلاق و یکپارچه با ابزارهای روزمره خود نیاز دارید، این رقابت نشان داد که جمنای در حال حاضر قهرمان بی‌رقیب این میدان است.

تبلیغات
داغ‌ترین مطالب روز
تبلیغات

نظرات