با Sora 2 آشنا شوید؛ واقعیترین هوش مصنوعی این روزها
یکشنبه 13 مهر 1404 - 13:30مطالعه 10 دقیقهاین روزها وقتی صفحهی شبکههای اجتماعی را باز میکنیم با ویدیوهایی روبهرو میشویم که کاملا مرز واقعیت و بازسازی دیجیتال را کنار زدهاند: مایکل جکسون قطعهای رپ جدیدی را اجرا میکند، باب راس با همان صدای آرام و شمردهاش منظرهای دیجیتال را میکشد و توپاک شکور در گفتوگویی زنده از سیاست و جامعه میگوید.
البته این ویدیوها را از آرشیوهای تلویزیونی بیرون نکشیدهاند و این کاربران هستند که پس از معرفی مدل جدید تازهی تولید ویدیوی OpenAI نسخهی عمومی Sora 2 را تست میکنند.
انتشار سورا ۲ و اپلیکیشن همراهش، توجه کاربران را بهشدت به خود جلب کرده و قابلیتهای هوش مصنوعی را بار دیگر از زاویهی دیگری به رخ میکشد. با ما همراه باشید تا مروری کنیم بر ویژگیهای سورا ۲ شرکت اوپنایآی، تفاوتهایش با نسل پیشین و مسیر احتمالی توسعهی آیندهی آن.
پخش از رسانه
Sora 2 چیست؟ از تولید ویدیو تا شبیهسازی جهان
سورا ۲، که تیم OpenAI از آن بهعنوان «لحظهی انتشار GPT-3.5 برای ویدیو» یاد میکند، نقطهی عطفی در مسیر تکامل فناوریهای تولید محتوای هوش مصنوعی بهشمار میرود. اگر نسخهی نخست سورا که در فوریهی ۲۰۲۴ معرفی شد را معادل «GPT-1» در دنیای ویدیو بدانیم که صرفاً امکانپذیری تولید ویدیوهای منسجم را ثابت کرد، نسخهی دوم با هدفی بسیار گستردهتر طراحی شده است: حرکت از تولید ویدیو بهسمت شبیهسازی جهان.
در این چارچوب، مدل دیگر صرفاً مجموعهای از پیکسلها را بر اساس متن ورودی کنار هم نمیچیند، بلکه میکوشد درک درونی و سازگار از جهان فیزیکی بسازد؛ جهانی با قوانین علیت، پویایی اجسام و پیوستگی زمانی. هدف این است که هوش مصنوعی نه فقط ظاهر، بلکه منطق پشت رویدادها را هم بازسازی کند.
نسخه جدید سورا تلاش میکند نهفقط ظاهر پدیدهها، بلکه علت و پیامد رویدادها را نیز درک کند
در لایهی فنی، سورا ۲ بر پایهی مدلهای دیفیوژن (Diffusion Models) توسعهیافته؛ الگوریتمهایی که با یادگیری فرآیند معکوسِ افزودن نویز به دادهها، میتوانند از یک فضای کاملاً تصادفی، تصویر یا ویدیویی تازه و منسجم بسازند. این فرایند با پالایش تدریجی نویز آغاز میشود و مرحلهبهمرحله تا رسیدن به خروجی نهایی، که با دستور کاربر تطبیق دارد ادامه مییابد.
پخش از رسانه
یکی از مفاهیم محوری در عملکرد Sora 2 تحت عنوان «حفظ پیوستگی زمانی» معرفی میشود. این مفهوم به توانایی مدل برای حفظ هویت و ویژگیهای اشیا، شخصیتها و محیطها در طول یک ویدیو اشاره دارد؛ بهطوریکه اجزا بهطور ناگهانی تغییر شکل ندهند، ناپدید نشوند یا در فریمهای مختلف رفتارهای ناسازگاری نداشته باشند، مشکلی که مدلهای نسل قبل بهسختی با آن دستوپنجه نرم میکردند.
سورا ۲ این مسئله را از طریق پردازش ویدیو در یک فضای نهان (Latent Space) حل میکند؛ فضایی فشرده و انتزاعی از دادهها که در آن مدل میتواند روابط پیچیده میان فریمها را درک کند و تغییرات را بهصورت تدریجی و منطقی اعمال نماید.
این رویکرد به نسخه جدید سورا اجازه میدهد تا ساختار زمانی و روایی ویدیوها را حفظ کند و خروجیهایی تولید نماید که از نظر تداوم بصری و علیت، طبیعیتر به نظر میرسند.
به همین دلیل هم OpenAI میگوید هدفش از توسعهی این مدل تنها خلق ویدیوهای باکیفیت یا سینمایی نیست، بلکه میخواهد زیربنایی فنی برای آموزش ایجنتهای هوش مصنوعی در آینده فراهم کند؛ سیستمهایی مانند رباتها که برای تعامل مؤثر با محیط، نیازمند درک عمیق و سازگار از قوانین جهان فیزیکی هستند.
ویژگیها و نوآوریهای Sora 2
پیشرفتهای Sora 2 نسبت به نسخههای پیشین خود و مدلهای رقیب، مجموعهای از ویژگیهای فنی و هوشمندانه را در بر میگیرد که هم کیفیت خروجی را ارتقا میدهند و هم عمق درک مدل از جهان و توانایی تعاملش با کاربر را افزایش میدهند.
وضوح بالاتر
پخش از رسانه
نخستین ویژگی قابلتوجه در Sora 2، بهبود چشمگیر وضوح تصاویر است. ویدیوهای خروجی این مدل اکنون از کیفیتی برخوردارند که به استانداردهای تولید حرفهای در سینما و تبلیغات نزدیک میشوند.
اما این ارتقا تنها به افزایش تعداد پیکسلها خلاصه نمیشود؛ مدل اکنون میتواند جزئیاتی بسیار ظریف را بازتولید کند: از بافت لطیف پارچه و انعکاس نور در چشمان شخصیتها گرفته تا ریزدانههای باران روی شیشه. این دقت بصری، حس واقعگرایی را تا مرز فریب چشم بیننده پیش میبرد.
تولید ویدیوهای طولانیتر و منسجمتر
در نسخههای اولیه، طول ویدیو به چند ثانیه محدود میشد؛ زیرا با افزایش زمان، خطاها و ناپیوستگیهای تصویری نیز بیشتر میشدند. اما سورا ۲ با معماری بازطراحیشده و درک بهتر از تداوم روایی، اکنون میتواند کلیپهایی چنددقیقهای تولید کند که انسجام حرکات، منطق صحنه و روند داستانی در آنها حفظ میشود. این توانایی، مسیر تازهای را برای استفاده از مدل در تولید فیلمهای کوتاه و محتوای سینمایی باز کرده است.
سورا ۲ در بازنمایی نیروهای فیزیکی رفتار طبیعیتری از نسلهای پیشین دارد
کنترل دقیق حرکت و زمان
پخش از رسانه
در نسخه جدید سورا، کاربر تنها تماشاگر نیست؛ بلکه عملاً نقش کارگردان را ایفا میکند. مدل امکان کنترل بسیار دقیق بر حرکات دوربین و سرعت رویدادها را فراهم میکند. میتوان یک صحنه را با حرکت آهسته و سینمایی یا با ریتمی تند و پرانرژی ساخت. این سطح از کنترل، Sora 2 را از یک مولد تصادفی ویدیو به ابزار کارگردانی هوشمند تبدیل میکند که توانایی اجرای دقیق دیدگاه خلاقانهی کاربر را دارد.
درک عمیقتر از نور، فضا و عمق میدان
یکی از ویژگیهای تحسینبرانگیز در خروجیهای Sora 2، کیفیت سینمایی نورپردازی آن است. مدل نهتنها تفاوت میان نور طبیعی و مصنوعی را درک میکند، بلکه میتواند تأثیر آنها را بر سطوح، بافتها و اشیا بهدرستی بازسازی کند. سایهها نرم و طبیعیاند، بازتابها از قوانین فیزیکی پیروی میکنند و ترکیب این عوامل، به ویدیوها عمق، حجم و حسی سهبعدی میبخشد که پیشتر در مدلهای مولد ویدیو بیسابقه بود.
واقعگرایی فیزیکی در تعاملات اشیا
مدلهای قدیمیتر گاهی قوانین فیزیک را نادیده میگرفتند؛ مثلاً اگر کاربر میخواست توپی به سمت سبد پرتاب شود، مدل ممکن بود به شکلی جادویی آن را مستقیم داخل سبد بیندازد. اما Sora 2 از چنین خطاهایی عبور کرده است. حالا اگر پرتاب ناموفق باشد، توپ به تخته برخورد کرده، تغییر جهت میدهد و بر اساس جرم، نیرو و زاویه، واکنش طبیعی نشان میدهد. این پایبندی به قوانین فیزیکی در شبیهسازیهای پیچیدهتر، از شناوری اجسام روی آب تا انعطافپذیری مواد مختلف نیز مشهود است.
درک عمیقتر زبان و صحنهپردازی پیچیده
آخرین و شاید مهمترین ویژگی Sora 2، توانایی آن در فهم دستورهای متنی چندوجهی است. مدل اکنون میتواند دستورهایی را که شامل چندین شخصیت، تعاملات متقابل، توصیفهای دقیق از محیط و زمانبندی رویدادها هستند، به یک صحنهی ویدیویی منسجم و منطقی تبدیل کند. بهاینترتیب، کاربر میتواند روایتهای چندلایه و سینماییتری را خلق کند، بیآنکه مدل دچار ابهام یا حذف جزئیات شود.
اپلیکیشن Sora و رویکرد استقرار
اوپنایآی تصمیم دارد سورا ۲ را با رویکردی متفاوت از گذشته منتشر کند. برخلاف بسیاری از مدلهای پیشین که از طریق API در اختیار توسعهدهندگان قرار میگرفتند، این بار محصول در قالب یک اپلیکیشن اجتماعی مستقل با نام «Sora» برای سیستمعامل iOS منتشر شده است.
این اپلیکیشن که در فاز اول بهصورت دعوتنامهای و فقط در ایالات متحده و کانادا در دسترس کاربران قرار میگیرد، میخواهد بهجای «مصرف محتوا» روی «خلق محتوا» تمرکز داشته باشد. کاربران میتوانند ویدیوهای خود را بسازند، آثار دیگران را ریمیکس کنند و در یک فید قابلشخصیسازی، محتواهای جدید را کشف نمایند.
OpenAI برای نخستینبار مدل خود را در قالب یک اپلیکیشن اجتماعی منتشر میکند
مهمترین ویژگی این اپلیکیشن، Cameos است که همانطور که در ادامه توضیح میدهیم به کاربران امکان خواهد داد با دوستان خود به شیوهای جدید و خلاقانه تعامل کنند.
این شرکت همچنین اعلام کرده است که الگوریتم فید این اپلیکیشن هم برای به این منظور بهینهسازی نشده که کاربر را مدتزمان بیشتری نگه دارد، بلکه اولویت آن نمایش محتوایی است که الهامبخش ساخت آثار جدید باشد. رویکرد فعلی در تضاد با مدل کسبوکار بسیاری از پلتفرمهای اجتماعی امروزی قرار میگیرد.
در حال حاضر، استفاده از اپلیکیشن رایگان است، اما OpenAI اشاره کرده که ممکن است در آینده برای تولید ویدیوهای اضافی، هزینهای از کاربران دریافت کند تا بتواند هزینههای محاسباتی سنگین این مدل را مدیریت نماید.
Cameos؛ جنجالیترین قابلیت سورا
پخش از رسانه
یکی از نوآورانهترین و درعینحال بحثبرانگیزترین ویژگیهای سورا ۲ را در قابلیتی به نام Cameo تجربه میکنیم؛ امکانی که به کاربران اجازه میدهد چهره، صدای خود یا افراد دیگر، از دوستان گرفته تا حیوانات خانگی و اشیای واقعی را مستقیماً به صحنههای تولیدشده توسط هوش مصنوعی «تزریق کنند».
کاربران برای استفاده از Cameos باید ویدیو و صدای کوتاهی از خود را ضبط کنند تا هویتشان تأیید شود
بدین منظور کاربران باید ابتدا از طریق اپلیکیشن، ویدیو و صدای کوتاهی از خود را ضبط کنند تا هویتشان تأیید شود و مدل هم بتواند ظاهر و صدای آنها را یاد بگیرد. پس از این مرحله، کاربر میتواند نسخهی دیجیتال خود را به هر محیطی که سورا ۲ میسازد، وارد کند. استفاده از چهره دیگر افراد نیز مستلزم اجازه آنها خواهد بود.
قابلیت کامئو، سورا ۲ را از یک ابزار تولید محتوای صرف به پلتفرمی تعاملی و اجتماعی تبدیل میکند. برای نمونه، کاربر میتواند خود را در حال قدمزدن در شهری با حالوهوای سایبرپانک یا گفتوگو با یک شخصیت تاریخی بازسازیشده مشاهده کند.
به گفتهی OpenAI، این قابلیت بهگونهای طراحی شده که کاربر کنترل کاملی بر روی نسخهی دیجیتال خود داشته باشد و بتواند در هر زمان دسترسی مدل به آن را لغو یا ویدیوهای خود را حذف کند.
تفاوتهای نسل دوم سورا با نسل اول
اولین نسخه سورا در سال ۲۰۲۴ بیشتر بهعنوان «اثبات مفهومی» عمل میکرد؛ مدلی برای نشاندادن اینکه یک سیستم زبانی میتواند ویدیوهای منسجم تولید کند. اما نسخه جدید را میتوانیم نتیجهی بازنگری کامل در هدف و معماری این پروژه بدانیم.
نسل اول سورا عمدتاً برای تولید کلیپهای کوتاه و تکنما بر اساس دستورات ساده طراحی شده بود و ویدیوهای کاملاً صامتی میساخت. ولی نسخهی جدید سیستم صوتی تصویری کاملی بهشمار میرود. بهعلاوه نسخهی اول در حفظ ثبات اشیا موفق بود، اما در شبیهسازی تعاملات فیزیکی پیچیده به چالش میخورد. مثلاً اجسام گاهی بیوزن بودند یا ناگهان از فریم حذف میشدند.
در نسل دوم، تمرکز از تولید فریمها به درک زمان، فضا و علیت تغییر یافته است
حالا مدل دوم با دادههای بیشتر و معماری پیچیدهتر، قادر است تداوم فیزیکی و روابط علّی را حفظ کند. توپها واقعاً میغلتند، باد واقعاً موها را تکان میدهد، و اشیا به همان شکلی که باید در فضا واکنش نشان میدهند.
یکی دیگر از تفاوتهای مهم دو نسخه به درک متن و صحنه در سطوح چندگانه برمیگردد. در نسخهی قبلی، مدل تنها دستور مستقیم را دنبال میکرد، اما سورا ۲ میتواند چند دستور ترکیبی را همزمان درک کند. اگر کاربر بخواهد «زنی که در حال دویدن در جنگل است و همزمان صدای باران میشنود و دوربین از پشت سر او حرکت میکند» را بسازد، مدل میفهمد که باید سهلایهی حرکتی، صوتی و تصویری را هماهنگ کند.
و شاید مهمتر از همه اینکه نسخهی اول سورا هرگز فراگیر نشد؛ درحالیکه آپدیت جدید نخستین نسخهی عمومی بهشمار میرود و همراه با اپلیکیشن اجتماعی جدید OpenAI برای iOS همهی کاربران عمومی را هدف قرار میدهد.
ملاحظات ایمنی و سیاستهای محتوایی: خطر فراگیرشدن دیپفیکها
باتوجهبه توانایی بیسابقهی نسخه جدید سورا در تولید محتوای واقعگرایانه، اوپنایآی مجموعهای از سیاستها و تدابیر ایمنی را برای کنترل استفاده از آن اعمال خواهد کرد. یکی از اصول کلیدی این سیاستها، ممنوعیت صریح ساخت تصاویر یا ویدیوهای دیپفیک از چهرههای عمومی زنده بدون رضایت آنها است.
در این چارچوب، قابلیت Cameos نقش ابزار احراز هویت و کسب رضایت را ایفا میکند؛ یعنی تنها خود فرد میتواند اجازهی استفاده از چهره و صدای دیجیتال خود را صادر کند.
OpenAI برای جلوگیری از سوءاستفاده، تولید دیپفیک از چهرههای زنده بدون رضایت را ممنوع کرده است
البته اوپنایآی اجازهی ساخت کلیپهای ویدیویی با چهرهی افراد شناخته شده را نمیدهد، ولی بهنظر میرسد این قانون برای سلبریتیهای درگذشته مصداق ندارد.
کاربران توانستهاند با استفاده از مدل، ویدیوهایی از شخصیتهای تاریخی یا سلبریتیهای متوفی مانند مالکوم ایکس و بروسلی بسازند. حتی یکی از محبوبترین ویدیوهای منتشرشده در اپلیکیشن سورا، سم آلتمن را در حال دزدیدن GPU نشان میدهد که با واقعیت مو نمیزند! اوپنایآی هم در واکنش به این موضوع اعلام کرده که تولید محتوای مربوط به «شخصیتهای تاریخی» مجاز است.
پخش از رسانه
این تصمیم در کنار مجاز بودن تولید محتوا از شخصیتهای داستانی دارای حق کپیرایت مانند ماریو یا باب اسفنجی پرسشهایی را دربارهی اطلاعات نادرست تاریخی و نقض مالکیت معنوی ایجاد میکند. برخی کاربران منتقد به ویژگی «حضور افتخاری»، ویدیوهای دیپفیکی ساختهاند که سم آلتمن را در حال سرقت GPU و آثار هنری استودیو جیبلی نشان میدهد.
بهعنوان یک اقدام حفاظتی، تمام ویدیوهای تولیدشده توسط سورا ۲ دارای واترمارک نامرئی و قابلردیابی هستند تا منشأ آنها مشخص باشد. بهعلاوه این شرکت به ابزارهای کنترل والدین و محدودیتهایی برای کاربران نوجوان نیز اشاره میکند و میگوید و که تیمهای ناظر انسانی برای مقابله با مواردی مانند آزار و قلدری، فعال خواهند بود.
انتشار نسخه جدید سورا را میتوان آغاز مرحلهی تازهای در مسیر بلندمدت OpenAI دانست. این شرکت صراحتاً اعلام کرده که هدف نهاییاش، توسعهی شبیهسازهای جهان چندمنظوره (General-purpose world simulators) است؛ سیستمهایی که فراتر از تولید ویدیو یا سرگرمی، بتوانند بهعنوان محیطهای آموزشی و آزمایشی برای عاملهای هوشمند و رباتها مورداستفاده قرار گیرند. در چنین محیطهایی، یک ربات میتواند میلیونها سناریوی فیزیکی را بدون خطرات دنیای واقعی تجربه کند و از آنها بیاموزد.
تا به اینجا، واکنشها به این محصول جدید ضد و نقیض بوده است. بسیاری نگرانند که ویدیوهای فوقالعاده واقعگرایانهای که با استفاده از چهرهی افراد واقعی ساخته میشوند، به کابوسی برای انتشار اطلاعات نادرست تبدیل شوند. برخی دیگر هم به سادگی آن را «کارخانهی تولید محتوای هرزِ هوش مصنوعی» مینامند.
برخی از کارمندان OpenAI نیز نگرانیهای خود را به صورت عمومی مطرح کردهاند. جان هلمن، که در بخش پیشآموزش OpenAI کار میکند، در پستی نوشت: «انکار نمیکنم که وقتی برای اولین بار از انتشار سورا ۲ مطلع شدم، کمی احساس نگرانی کردم. با این حال، فکر میکنم تیم ما تمام تلاش خود را برای طراحی یک تجربهی مثبت به کار گرفته است.» بوعز باراک، یکی از اعضای تیم فنی OpenAI، در شبکهی ایکس نوشت که «ترکیبی از نگرانی و هیجان» را حس میکند. به گفتهی او: «سورا ۲ از نظر فنی شگفتانگیز است، اما هنوز برای تبریک گفتن به خودمان بابت دوری از دامهای سایر اپلیکیشنهای اجتماعی و دیپفیکها زود است.» او اضافه کرد که اگرچه از برخی اقدامات حفاظتی راضی است، «اما مثل همیشه، دانش ما تا قبل از اینکه یک محصول در دنیای واقعی استفاده شود، محدودیتهای خودش را دارد.»
با این حال، در مقایسه با سایر اپلیکیشنهای «اجتماعی» هوش مصنوعی مانند Vibes از شرکت متا، سورا حداقل به طور موقت یک ویژگی جذاب و گیرا دارد: قابلیت تبدیل کردن خود و دوستانتان به «میم». به نظر میرسد OpenAI متوجه شده که محبوبترین روندهای هوش مصنوعی بیشتر حول تبدیلکردن چهرهی خودمان مثلا به یک شخصیت از استودیو جیبلی میچرخد و حالا، یک اپلیکیشن کامل را بر همین اساس ساخته است.
فارغ از احساسی که مردم تا به امروز نسبت به سورا دارند، به نظر میرسد یک اجماع عمومی وجود دارد: اینکه درک ما از مرز میان واقعیت و خیال، دیگر هرگز مانند گذشته نخواهد بود.