ساخت ویدیو با هوش مصنوعی؛ معرفی 4 ابزار برتر
- 31 تیر 1403
- 0
- زمان مطالعه : 4 دقیقه 38 ثانیه
بهترین ابزارهای آینده برای تولید ویدیو با هوش مصنوعی
در این مقاله به معرفی بهترین ابزار هوش مصنوعی مولد جهت تولید ویدیو و معرفی چندین ابزار برای آن می پردازیم. در اینجا به معرفی ابزارهایی خواهیم پرداخت که در آیندهای نه چندان دور وارد عرصه جهانی خواهند شد، برای کسب اطلاعات بیشتر در این زمینه با مجله اینترنتی ایران رهجو همراه شوید.
۱. سُورا (Sora) از OpenAI
بیش از هر مدل دیگری انتظار میرود هوش مصنوعی سورا از OpenAI برای تولید ویدیو در آیندهای نزدیک در دسترس عموم قرار بگیرد، هر چند این ژنراتور هوش مصنوعی، در حال حاضر برای کاربران عادی در دسترس نیست، چرا که OpenAI به منظور ارزیابی سوگیریها، ریسکها و آسیبهای احتمالی به همکاری با متخصصان این مدل میپردازد.
OpenAI، چندین ویدیو کلیپ را به نمایش گذاشته است که با استفاده از مدل هوش مصنوعی تولید ویدیوی متنی سُورا، ساخته شدهاند. در عکسهای زیر میتوانید اطلاعات این کمپانی در مورد هوش مصنوعی مولد سورا را ملاحظه کنید.
OpenAI در عکس بالا می گوید:
پیش از اینکه سُورا را در محصولات OpenAI در دسترس قرار دهیم چندین اقدام ایمنی مهم را انجام خواهیم داد.
ما با متخصصان تیم قرمز (red team) همکاری میکنیم. این متخصصان حوزههایی مانند: اطلاعات غلط، محتوای نفرت انگیز و سوگیریها را در این مدل به طور جدی مورد آزمایش قرار میدهند.
OpenAI این ادعا را دارد که با توصیفی مانند متن ذیل می تواند آن را به یک ویدئو جذاب تبدیل کند:
«چند ماموت پشمالو و غول پیکر در حال عبور از یک دشت پوشیده از برف هستند، باد به نرمی، خز بلند آنها را در حالی که راه میروند نوازش میکند. درختان پوشیده از برف و کوههای دیدنی با قلههای برفی، نور بعد از ظهر با ابرهای نازک و آفتابی که در دوردست قرار گرفته و درخشش گرمی را ایجاد میکند. نما از پایین خیره کننده است و این پستاندار بزرگ و پشمالو را با عکاسی زیبا و عمق میدان دید خیره کننده به تصویر میکشد.»
بر خلاف سایر مدلهای تولید ویدیو با هوش مصنوعی، سُورا میتواند ویدیوهای 1080p با حداکثر زمان یک دقیقه تولید کند. کیفیت ویدیوهای تولید شده نیز بسیار چشمگیر هستند. بسیاری از متخصصان این حوزه بر این باورند که سُورا با استفاده از دادههای مصنوعی شبیهسازی شده توسط موتور بازیسازی Unreal Enginen آموزش دیده است، که شاید همین موضوع بتواند توضیحی برای کیفیت شبیه به صحنههای بازی در ویدیوهای خروجی این هوش مصنوعی مولد باشد.
آموزش سورا به چه صورت انجام میشود؟
در حال حاضر بحث دیگری در مورد نحوه آموزش سُورا وجود دارد. به گمان برخی از افراد ممکن است OpenAI برای آموزش مدل خود از ویدیوهای یوتیوب استفاده کرده باشد.
مدیر ارشد فناوری (CTO) OpenAI از پاسخ به این سوال طفره رفت. طبق گفته مدیرعامل شرکت یوتیوب اگر OpenAI واقعاً از ویدیوهای یوتیوب استفاده کرده باشد، نقض آشکار شرایط خدمات (Terms of Service) یوتیوب به شمار میرود.
جدای از این بحثهای جنجالی وعده داده شده است که سُورا در سال جاری (2024) در دسترس عموم قرار خواهد گرفت.
جهت دریافت هرگونه مشاوره در خصوص تعمیرات موبایل و لپ تاپ خود فرم ذیل را تکمیل نمایید. همکاران ما به زودی با شما تماس خواهند گرفت.
۲. گوگل ایمِیجن (Imagen)
گوگل در سال ۲۰۲۳ مدل «ایمیجن ۲» را منتشر کرد که برای تولید تصویر با هوش مصنوعی جِمینی ادغام شده بود. همچنین یک ابزار مستقل تبدیل متن به تصویر به نام ImageFX «ایمِیجافِکس» را راهاندازی کرد.
این غول جستجو همچنین روی Imagen Video «ایمِیجن ویدیو» بر اساس مدلهای هوش مصنوعی Cascaded Diffusion «کَسکِیدد دیفیوژن» کار کرده است. این مدل میتواند ویدیوهای با کیفیت بالا با رزولوشن ۱۲۸۰ در ۷۶۸ و نرخ فریم ۲۴ فریم بر ثانیه تولید کند.
حال در رویداد Google Cloud Next 2024، این شرکت تصاویر زندهای را بر اساس مدل «ایمِیجن ۲» به نمایش گذاشت. این مدل میتواند از زوایای مختلف ویدیوهایی تا چهار ثانیه تولید کند. با این حال هنوز در دسترس عموم قرار نگرفته است.
در حال حاضر، گوگل ایمیجن در حال آزمایش این مدل ویدو ها با مشتریان سازمانی است.
علاوه بر این گوگل در حال بررسی و کار بر روی فناکی (Phenaki) به عنوان یک مدل هوش مصنوعی متن به تصویر نیز هست. این مدل میتواند بر اساس دستورات متنی که به آن میدهید ویدیوهای واقعی تولید کنند.
هر دو مدل زبانی که درباره آنها صحبت کردیم تحت بررسی و ارتقاء هستند و در حال حاضر در دسترس عموم قرار نگرفتهاند.
۳. ابزار تولید ویدیوی متا با هوش مصنوعی (Meta’s Make-A-Video)
متا از ابزار هوش مصنوعی خود به نام «Make-A-Video» رونمایی کرده است که میتواند با استفاده از دستورات متنی ویدیوهایی را تولید کند.
شما میتوانید با استفاده از متن، تصاویر یا ویدیو به عنوان ورودی، ویدیوهایی واقعگرایانه، سورئال و شخصیسازیشده ایجاد کنید. مدل متا قادر است تا با استفاده از تنها از یک تصویر ثابت، ویدیوهای متحرک بسازد.
همچنین میتوانید چندین تصویر را به عنوان ورودی اضافه کنید و این ابزار با پر کردن حرکت بین آنها، ویدیوهای رویایی خلق کند.
بر اساس مقاله تحقیقاتی متا، مدل تولید ویدیوی آنها نسبت به سایر مدلها، از ورودی متنی، نمایش ۳ برابر بهتر و بازدهی بالاتری را ارائه خواهد داد. با این حال، این پروژه نیز در حال حاضر در دسترس عموم قرار نگرفته است اما میتوانید با ثبتنام در وبسایت متا، درخواست دسترسی خود را ثبت کنید.
۴. مدل انتشار نهان Nvidia (Latent Diffusion Model)
در نهایت، شرکت Nvidia از مدل «Latent Diffusion Model» با کیفیت بالا رونمایی کرده است که میتواند با استفاده از متن راهنما (text prompts) ویدیوهای باکیفیت و با رزولوشن بالا را به صورت بهینه تولید کند.
ویدیوهای هوش مصنوعی Nvidia چگونه خواهند بود؟
این مدل قادر است ویدیوهایی با رزولوشن ۱۲۸۰ در ۲۰۴۸ و نرخ فریم ۲۴ فریم بر ثانیه تولید کند که فوق العاده خواهد بود.
اکثر ویدیوهای ساخته شده توسط این مدل ۵ ثانیهای هستند، اما علاوه بر این میتواند ویدیوهای طولانیتر و ۵ دقیقهای با رزولوشن ۵۱۲ در ۱۰۲۴ نیز تولید کند. امکان استفاده از تصاویر به عنوان ورودی و خلق ویدیوهای شخصیسازیشده با هوش مصنوعی نیز در این مدل هوش مصنوعی ، وجود دارد.
در زمینه تولید ویدیو با هوش مصنوعی فکر میکنم انویدیا در آینده به یکی از بازیگران کلیدی این عرصه تبدیل خواهد شد. در همین راستا، انویدیا چندین دموی ویدیویی را در وبسایت خود به نمایش گذاشته است که میتوانید در وبسایت اصلی آن، مشاهده کنید.
برای مشاهده دموها های تستی تولید شده با هوش مصنوعی توسط شرکت انویدیا کلیک کنید
اگر به مطالب حوزه تکنولوژی علاقهمند هستید، جهت مطالعه مقالات بیشتر از منابع معتبر بین المللی، میتوانید به مجله اینترنتی ایران رهجو مراجعه نمایید.
منبع:beebom