زن جوان در حال نگاه کردن به عروسک‌های چوبی ارکستر

با Sora 2 آشنا شوید؛ واقعی‌ترین هوش مصنوعی این‌ روزها

یک‌شنبه 13 مهر 1404 - 13:30مطالعه 10 دقیقه
جدیدترین مدل هوش مصنوعی OpenAI می‌تواند شخصیت‌های تاریخی و هنرمندان درگذشته را با دقتی باورنکردنی بازسازی کند. با Sora 2 آشنا شوید.
تبلیغات

این روزها وقتی صفحه‌ی شبکه‌های اجتماعی را باز می‌کنیم با ویدیوهایی روبه‌رو می‌شویم که کاملا مرز واقعیت و بازسازی دیجیتال را کنار زده‌اند: مایکل جکسون قطعه‌ای رپ جدیدی را اجرا می‌کند، باب راس با همان صدای آرام و شمرده‌اش منظره‌ای دیجیتال را می‌کشد و توپاک شکور در گفت‌وگویی زنده از سیاست و جامعه می‌گوید.

البته این ویدیوها را از آرشیوهای تلویزیونی بیرون نکشیده‌اند و این کاربران هستند که پس از معرفی مدل جدید تازه‌ی تولید ویدیوی OpenAI نسخه‌ی عمومی Sora 2 را تست می‌کنند.

انتشار سورا ۲ و اپلیکیشن همراهش، توجه کاربران را به‌شدت به خود جلب کرده و قابلیت‌های هوش مصنوعی را بار دیگر از زاویه‌ی دیگری به رخ می‌کشد. با ما همراه باشید تا مروری کنیم بر ویژگی‌های سورا ۲ شرکت اوپن‌ای‌آی، تفاوت‌هایش با نسل پیشین و مسیر احتمالی توسعه‌ی آینده‌ی آن.

پخش از رسانه

Sora 2 چیست؟ از تولید ویدیو تا شبیه‌سازی جهان

سورا ۲، که تیم OpenAI از آن به‌عنوان «لحظه‌ی انتشار GPT-3.5 برای ویدیو» یاد می‌کند، نقطه‌ی عطفی در مسیر تکامل فناوری‌های تولید محتوای هوش مصنوعی به‌شمار می‌رود. اگر نسخه‌ی نخست سورا که در فوریه‌ی ۲۰۲۴ معرفی شد را معادل «GPT-1» در دنیای ویدیو بدانیم که صرفاً امکان‌پذیری تولید ویدیوهای منسجم را ثابت کرد، نسخه‌ی دوم با هدفی بسیار گسترده‌تر طراحی شده است: حرکت از تولید ویدیو به‌سمت شبیه‌سازی جهان.

در این چارچوب، مدل دیگر صرفاً مجموعه‌ای از پیکسل‌ها را بر اساس متن ورودی کنار هم نمی‌چیند، بلکه می‌کوشد درک درونی و سازگار از جهان فیزیکی بسازد؛ جهانی با قوانین علیت، پویایی اجسام و پیوستگی زمانی. هدف این است که هوش مصنوعی نه فقط ظاهر، بلکه منطق پشت رویدادها را هم بازسازی کند.

نسخه جدید سورا تلاش می‌کند نه‌فقط ظاهر پدیده‌ها، بلکه علت و پیامد رویدادها را نیز درک کند

در لایه‌ی فنی، سورا ۲ بر پایه‌ی مدل‌های دیفیوژن (Diffusion Models) توسعه‌یافته؛ الگوریتم‌هایی که با یادگیری فرآیند معکوسِ افزودن نویز به داده‌ها، می‌توانند از یک فضای کاملاً تصادفی، تصویر یا ویدیویی تازه و منسجم بسازند. این فرایند با پالایش تدریجی نویز آغاز می‌شود و مرحله‌به‌مرحله تا رسیدن به خروجی نهایی، که با دستور کاربر تطبیق دارد ادامه می‌یابد.

پخش از رسانه

یکی از مفاهیم محوری در عملکرد Sora 2 تحت عنوان «حفظ پیوستگی زمانی» معرفی می‌شود. این مفهوم به توانایی مدل برای حفظ هویت و ویژگی‌های اشیا، شخصیت‌ها و محیط‌ها در طول یک ویدیو اشاره دارد؛ به‌طوری‌که اجزا به‌طور ناگهانی تغییر شکل ندهند، ناپدید نشوند یا در فریم‌های مختلف رفتارهای ناسازگاری نداشته باشند، مشکلی که مدل‌های نسل قبل به‌سختی با آن دست‌وپنجه نرم می‌کردند.

سورا ۲ این مسئله را از طریق پردازش ویدیو در یک فضای نهان (Latent Space) حل می‌کند؛ فضایی فشرده و انتزاعی از داده‌ها که در آن مدل می‌تواند روابط پیچیده میان فریم‌ها را درک کند و تغییرات را به‌صورت تدریجی و منطقی اعمال نماید.

این رویکرد به نسخه جدید سورا اجازه می‌دهد تا ساختار زمانی و روایی ویدیوها را حفظ کند و خروجی‌هایی تولید نماید که از نظر تداوم بصری و علیت، طبیعی‌تر به نظر می‌رسند.

به همین دلیل هم OpenAI می‌گوید هدفش از توسعه‌ی این مدل تنها خلق ویدیوهای باکیفیت یا سینمایی نیست، بلکه می‌خواهد زیربنایی فنی برای آموزش ایجنت‌های هوش مصنوعی در آینده فراهم کند؛ سیستم‌هایی مانند ربات‌ها که برای تعامل مؤثر با محیط، نیازمند درک عمیق و سازگار از قوانین جهان فیزیکی هستند.

ویژگی‌ها و نوآوری‌های Sora 2

پیشرفت‌های Sora 2 نسبت به نسخه‌های پیشین خود و مدل‌های رقیب، مجموعه‌ای از ویژگی‌های فنی و هوشمندانه را در بر می‌گیرد که هم کیفیت خروجی را ارتقا می‌دهند و هم عمق درک مدل از جهان و توانایی تعاملش با کاربر را افزایش می‌دهند.

وضوح بالاتر

پخش از رسانه

نخستین ویژگی قابل‌توجه در Sora 2، بهبود چشمگیر وضوح تصاویر است. ویدیوهای خروجی این مدل اکنون از کیفیتی برخوردارند که به استانداردهای تولید حرفه‌ای در سینما و تبلیغات نزدیک می‌شوند.

اما این ارتقا تنها به افزایش تعداد پیکسل‌ها خلاصه نمی‌شود؛ مدل اکنون می‌تواند جزئیاتی بسیار ظریف را بازتولید کند: از بافت لطیف پارچه و انعکاس نور در چشمان شخصیت‌ها گرفته تا ریزدانه‌های باران روی شیشه. این دقت بصری، حس واقع‌گرایی را تا مرز فریب چشم بیننده پیش می‌برد.

تولید ویدیوهای طولانی‌تر و منسجم‌تر

در نسخه‌های اولیه، طول ویدیو به چند ثانیه محدود می‌شد؛ زیرا با افزایش زمان، خطاها و ناپیوستگی‌های تصویری نیز بیشتر می‌شدند. اما سورا ۲ با معماری بازطراحی‌شده و درک بهتر از تداوم روایی، اکنون می‌تواند کلیپ‌هایی چنددقیقه‌ای تولید کند که انسجام حرکات، منطق صحنه و روند داستانی در آن‌ها حفظ می‌شود. این توانایی، مسیر تازه‌ای را برای استفاده از مدل در تولید فیلم‌های کوتاه و محتوای سینمایی باز کرده است.

سورا ۲ در بازنمایی نیروهای فیزیکی رفتار طبیعی‌تری از نسل‌های پیشین دارد

کنترل دقیق حرکت و زمان

پخش از رسانه

در نسخه جدید سورا، کاربر تنها تماشاگر نیست؛ بلکه عملاً نقش کارگردان را ایفا می‌کند. مدل امکان کنترل بسیار دقیق بر حرکات دوربین و سرعت رویدادها را فراهم می‌کند. می‌توان یک صحنه را با حرکت آهسته و سینمایی یا با ریتمی تند و پرانرژی ساخت. این سطح از کنترل، Sora 2 را از یک مولد تصادفی ویدیو به ابزار کارگردانی هوشمند تبدیل می‌کند که توانایی اجرای دقیق دیدگاه خلاقانه‌ی کاربر را دارد.

درک عمیق‌تر از نور، فضا و عمق میدان

یکی از ویژگی‌های تحسین‌برانگیز در خروجی‌های Sora 2، کیفیت سینمایی نورپردازی آن است. مدل نه‌تنها تفاوت میان نور طبیعی و مصنوعی را درک می‌کند، بلکه می‌تواند تأثیر آن‌ها را بر سطوح، بافت‌ها و اشیا به‌درستی بازسازی کند. سایه‌ها نرم و طبیعی‌اند، بازتاب‌ها از قوانین فیزیکی پیروی می‌کنند و ترکیب این عوامل، به ویدیوها عمق، حجم و حسی سه‌بعدی می‌بخشد که پیش‌تر در مدل‌های مولد ویدیو بی‌سابقه بود.

واقع‌گرایی فیزیکی در تعاملات اشیا

مدل‌های قدیمی‌تر گاهی قوانین فیزیک را نادیده می‌گرفتند؛ مثلاً اگر کاربر می‌خواست توپی به سمت سبد پرتاب شود، مدل ممکن بود به شکلی جادویی آن را مستقیم داخل سبد بیندازد. اما Sora 2 از چنین خطاهایی عبور کرده است. حالا اگر پرتاب ناموفق باشد، توپ به تخته برخورد کرده، تغییر جهت می‌دهد و بر اساس جرم، نیرو و زاویه، واکنش طبیعی نشان می‌دهد. این پایبندی به قوانین فیزیکی در شبیه‌سازی‌های پیچیده‌تر، از شناوری اجسام روی آب تا انعطاف‌پذیری مواد مختلف نیز مشهود است.

درک عمیق‌تر زبان و صحنه‌پردازی پیچیده

آخرین و شاید مهم‌ترین ویژگی Sora 2، توانایی آن در فهم دستورهای متنی چندوجهی است. مدل اکنون می‌تواند دستورهایی را که شامل چندین شخصیت، تعاملات متقابل، توصیف‌های دقیق از محیط و زمان‌بندی رویدادها هستند، به یک صحنه‌ی ویدیویی منسجم و منطقی تبدیل کند. به‌این‌ترتیب، کاربر می‌تواند روایت‌های چندلایه و سینمایی‌تری را خلق کند، بی‌آنکه مدل دچار ابهام یا حذف جزئیات شود.

اپلیکیشن Sora و رویکرد استقرار

اوپن‌ای‌آی تصمیم دارد سورا ۲ را با رویکردی متفاوت از گذشته منتشر کند. برخلاف بسیاری از مدل‌های پیشین که از طریق API در اختیار توسعه‌دهندگان قرار می‌گرفتند، این بار محصول در قالب یک اپلیکیشن اجتماعی مستقل با نام «Sora» برای سیستم‌عامل iOS منتشر شده است.

این اپلیکیشن که در فاز اول به‌صورت دعوت‌نامه‌ای و فقط در ایالات متحده و کانادا در دسترس کاربران قرار می‌گیرد، می‌خواهد به‌جای «مصرف محتوا» روی «خلق محتوا» تمرکز داشته باشد. کاربران می‌توانند ویدیوهای خود را بسازند، آثار دیگران را ریمیکس کنند و در یک فید قابل‌شخصی‌سازی، محتواهای جدید را کشف نمایند.

OpenAI برای نخستین‌بار مدل خود را در قالب یک اپلیکیشن اجتماعی منتشر می‌کند

مهم‌ترین ویژگی این اپلیکیشن، Cameos است که همانطور که در ادامه توضیح می‌دهیم به کاربران امکان خواهد داد با دوستان خود به شیوه‌ای جدید و خلاقانه تعامل کنند.

این شرکت همچنین اعلام کرده است که الگوریتم فید این اپلیکیشن هم برای به این منظور بهینه‌سازی نشده که کاربر را مدت‌زمان بیشتری نگه دارد، بلکه اولویت آن نمایش محتوایی است که الهام‌بخش ساخت آثار جدید باشد. رویکرد فعلی در تضاد با مدل کسب‌وکار بسیاری از پلتفرم‌های اجتماعی امروزی قرار می‌گیرد.

 در حال حاضر، استفاده از اپلیکیشن رایگان است، اما OpenAI اشاره کرده که ممکن است در آینده برای تولید ویدیوهای اضافی، هزینه‌ای از کاربران دریافت کند تا بتواند هزینه‌های محاسباتی سنگین این مدل را مدیریت نماید.

Cameos؛ جنجالی‌ترین قابلیت سورا

پخش از رسانه

یکی از نوآورانه‌ترین و درعین‌حال بحث‌برانگیزترین ویژگی‌های سورا ۲ را در قابلیتی به نام Cameo تجربه می‌کنیم؛ امکانی که به کاربران اجازه می‌دهد چهره، صدای خود یا افراد دیگر، از دوستان گرفته تا حیوانات خانگی و اشیای واقعی را مستقیماً به صحنه‌های تولیدشده توسط هوش مصنوعی «تزریق کنند».

کاربران برای استفاده از Cameos باید ویدیو و صدای کوتاهی از خود را ضبط کنند تا هویتشان تأیید شود

بدین منظور کاربران باید ابتدا از طریق اپلیکیشن، ویدیو و صدای کوتاهی از خود را ضبط کنند تا هویتشان تأیید شود و مدل هم بتواند ظاهر و صدای آن‌ها را یاد بگیرد. پس از این مرحله، کاربر می‌تواند نسخه‌ی دیجیتال خود را به هر محیطی که سورا ۲ می‌سازد، وارد کند. استفاده از چهره دیگر افراد نیز مستلزم اجازه آن‌ها خواهد بود.

قابلیت کامئو، سورا ۲ را از یک ابزار تولید محتوای صرف به پلتفرمی تعاملی و اجتماعی تبدیل می‌کند. برای نمونه، کاربر می‌تواند خود را در حال قدم‌زدن در شهری با حال‌وهوای سایبرپانک یا گفت‌وگو با یک شخصیت تاریخی بازسازی‌شده مشاهده کند.

به گفته‌ی OpenAI، این قابلیت به‌گونه‌ای طراحی شده که کاربر کنترل کاملی بر روی نسخه‌ی دیجیتال خود داشته باشد و بتواند در هر زمان دسترسی مدل به آن را لغو یا ویدیوهای خود را حذف کند.

تفاوت‌های نسل دوم سورا با نسل اول

اولین نسخه سورا در سال ۲۰۲۴ بیشتر به‌عنوان «اثبات مفهومی» عمل می‌کرد؛ مدلی برای نشان‌دادن اینکه یک سیستم زبانی می‌تواند ویدیوهای منسجم تولید کند. اما نسخه جدید را می‌توانیم نتیجه‌ی بازنگری کامل در هدف و معماری این پروژه بدانیم.

نسل اول سورا عمدتاً برای تولید کلیپ‌های کوتاه و تک‌نما بر اساس دستورات ساده طراحی شده بود و ویدیوهای کاملاً صامتی می‌ساخت. ولی نسخه‌ی جدید سیستم صوتی تصویری کاملی به‌شمار می‌رود. به‌علاوه نسخه‌ی اول در حفظ ثبات اشیا موفق بود، اما در شبیه‌سازی تعاملات فیزیکی پیچیده به چالش می‌خورد. مثلاً اجسام گاهی بی‌وزن بودند یا ناگهان از فریم حذف می‌شدند.

در نسل دوم، تمرکز از تولید فریم‌ها به درک زمان، فضا و علیت تغییر یافته است

حالا مدل دوم با داده‌های بیشتر و معماری پیچیده‌تر، قادر است تداوم فیزیکی و روابط علّی را حفظ کند. توپ‌ها واقعاً می‌غلتند، باد واقعاً موها را تکان می‌دهد، و اشیا به همان شکلی که باید در فضا واکنش نشان می‌دهند.

یکی دیگر از تفاوت‌های مهم دو نسخه به درک متن و صحنه در سطوح چندگانه برمی‌گردد. در نسخه‌ی قبلی، مدل تنها دستور مستقیم را دنبال می‌کرد، اما سورا ۲ می‌تواند چند دستور ترکیبی را هم‌زمان درک کند. اگر کاربر بخواهد «زنی که در حال دویدن در جنگل است و هم‌زمان صدای باران می‌شنود و دوربین از پشت سر او حرکت می‌کند» را بسازد، مدل می‌فهمد که باید سه‌لایه‌ی حرکتی، صوتی و تصویری را هماهنگ کند.

و شاید مهم‌تر از همه اینکه نسخه‌ی اول سورا هرگز فراگیر نشد؛ درحالی‌که آپدیت جدید نخستین نسخه‌ی عمومی به‌شمار می‌رود و همراه با اپلیکیشن اجتماعی جدید OpenAI برای iOS همه‌ی کاربران عمومی را هدف قرار می‌دهد.

ملاحظات ایمنی و سیاست‌های محتوایی: خطر فراگیرشدن دیپ‌فیک‌ها

باتوجه‌به توانایی بی‌سابقه‌ی نسخه جدید سورا در تولید محتوای واقع‌گرایانه، اوپن‌ای‌آی مجموعه‌ای از سیاست‌ها و تدابیر ایمنی را برای کنترل استفاده از آن اعمال خواهد کرد. یکی از اصول کلیدی این سیاست‌ها، ممنوعیت صریح ساخت تصاویر یا ویدیوهای دیپ‌فیک از چهره‌های عمومی زنده بدون رضایت آن‌ها است.

در این چارچوب، قابلیت Cameos نقش ابزار احراز هویت و کسب رضایت را ایفا می‌کند؛ یعنی تنها خود فرد می‌تواند اجازه‌ی استفاده از چهره و صدای دیجیتال خود را صادر کند.

OpenAI برای جلوگیری از سوءاستفاده، تولید دیپ‌فیک از چهره‌های زنده بدون رضایت را ممنوع کرده است

البته اوپن‌ای‌آی اجازه‌ی ساخت کلیپ‌های ویدیویی با چهره‌ی افراد شناخته شده را نمی‌دهد، ولی به‌نظر می‌رسد این قانون برای سلبریتی‌های درگذشته مصداق ندارد.

کاربران توانسته‌اند با استفاده از مدل، ویدیوهایی از شخصیت‌های تاریخی یا سلبریتی‌های متوفی مانند مالکوم ایکس و بروس‌لی بسازند. حتی یکی از محبوب‌ترین ویدیوهای منتشرشده در اپلیکیشن سورا، سم‌ آلتمن را در حال دزدیدن GPU نشان می‌دهد که با واقعیت مو نمی‌زند! اوپن‌ای‌آی هم در واکنش به این موضوع اعلام کرده که تولید محتوای مربوط به «شخصیت‌های تاریخی» مجاز است.

پخش از رسانه

این تصمیم در کنار مجاز بودن تولید محتوا از شخصیت‌های داستانی دارای حق کپی‌رایت مانند ماریو یا باب اسفنجی پرسش‌هایی را درباره‌ی اطلاعات نادرست تاریخی و نقض مالکیت معنوی ایجاد می‌کند. برخی کاربران منتقد به ویژگی «حضور افتخاری»، ویدیوهای دیپ‌فیکی ساخته‌اند که سم آلتمن را در حال سرقت GPU و آثار هنری استودیو جیبلی نشان می‌دهد.

به‌عنوان یک اقدام حفاظتی، تمام ویدیوهای تولیدشده توسط سورا ۲ دارای واترمارک نامرئی و قابل‌ردیابی هستند تا منشأ آن‌ها مشخص باشد. به‌علاوه این شرکت به ابزارهای کنترل والدین و محدودیت‌هایی برای کاربران نوجوان نیز اشاره می‌کند و می‌گوید و که تیم‌های ناظر انسانی برای مقابله با مواردی مانند آزار و قلدری، فعال خواهند بود.

انتشار نسخه جدید سورا را می‌توان آغاز مرحله‌ی تازه‌ای در مسیر بلندمدت OpenAI دانست. این شرکت صراحتاً اعلام کرده که هدف نهایی‌اش، توسعه‌ی شبیه‌سازهای جهان چندمنظوره (General-purpose world simulators) است؛ سیستم‌هایی که فراتر از تولید ویدیو یا سرگرمی، بتوانند به‌عنوان محیط‌های آموزشی و آزمایشی برای عامل‌های هوشمند و ربات‌ها مورداستفاده قرار گیرند. در چنین محیط‌هایی، یک ربات می‌تواند میلیون‌ها سناریوی فیزیکی را بدون خطرات دنیای واقعی تجربه کند و از آن‌ها بیاموزد.

تا به اینجا، واکنش‌ها به این محصول جدید ضد و نقیض بوده است. بسیاری نگرانند که ویدیوهای فوق‌العاده واقع‌گرایانه‌ای که با استفاده از چهره‌ی افراد واقعی ساخته می‌شوند، به کابوسی برای انتشار اطلاعات نادرست تبدیل شوند. برخی دیگر هم به سادگی آن را «کارخانه‌ی تولید محتوای هرزِ هوش مصنوعی» می‌نامند.

برخی از کارمندان OpenAI نیز نگرانی‌های خود را به صورت عمومی مطرح کرده‌اند. جان هلمن، که در بخش پیش‌آموزش OpenAI کار می‌کند، در پستی نوشت: «انکار نمی‌کنم که وقتی برای اولین بار از انتشار سورا ۲ مطلع شدم، کمی احساس نگرانی کردم. با این حال، فکر می‌کنم تیم ما تمام تلاش خود را برای طراحی یک تجربه‌ی مثبت به کار گرفته است.» بوعز باراک، یکی از اعضای تیم فنی OpenAI، در شبکه‌ی ایکس نوشت که «ترکیبی از نگرانی و هیجان» را حس می‌کند. به گفته‌ی او: «سورا ۲ از نظر فنی شگفت‌انگیز است، اما هنوز برای تبریک گفتن به خودمان بابت دوری از دام‌های سایر اپلیکیشن‌های اجتماعی و دیپ‌فیک‌ها زود است.» او اضافه کرد که اگرچه از برخی اقدامات حفاظتی راضی است، «اما مثل همیشه، دانش ما تا قبل از اینکه یک محصول در دنیای واقعی استفاده شود، محدودیت‌های خودش را دارد.»

با این حال، در مقایسه با سایر اپلیکیشن‌های «اجتماعی» هوش مصنوعی مانند Vibes از شرکت متا، سورا حداقل به طور موقت یک ویژگی جذاب و گیرا دارد: قابلیت تبدیل کردن خود و دوستانتان به «میم». به نظر می‌رسد OpenAI متوجه شده که محبوب‌ترین روندهای هوش مصنوعی بیشتر حول تبدیل‌کردن چهره‌‌‌ی خودمان مثلا به یک شخصیت از استودیو جیبلی می‌چرخد و حالا، یک اپلیکیشن کامل را بر همین اساس ساخته است.

فارغ از احساسی که مردم تا به امروز نسبت به سورا دارند، به نظر می‌رسد یک اجماع عمومی وجود دارد: اینکه درک ما از مرز میان واقعیت و خیال، دیگر هرگز مانند گذشته نخواهد بود.

تبلیغات
داغ‌ترین مطالب روز
تبلیغات

نظرات