اخیراً ابزارهای هوش مصنوعی برای تبدیل متن به عکس، به یکی از جذاب‌ترین موضوعات حوزه‌ی فناوری تبدیل شده‌اند. اکنون محققان درحال حرکت به ‌سوی مرزهای بعدی این تکنولوژی هستند؛ استفاده از هوش مصنوعی برای تبدیل متن به ویدئو.

تیمی از مهندسان واحد یادگیری ماشینی متا، از مدل هوش مصنوعی جدیدی به‌نام Make-A-Video رونمایی کرده‌اند. همان ‌طور که از نام این ابزار پیدا است، به کاربران اجازه می‌دهد با ارائه‌ی توضیح متنی از صحنه‌ی موردنظر خود، ویدئوی کوتاهی مطابق با آن متن ایجاد کنند. درحال‌حاضر ویدئوهای تولیدشده با این مدل، مصنوعی به‌نظر می ‌رسند و برخی المان‌های تاری و انیمیشن‌های ضعیف در آن‌ها دیده می‌شود، اما این فناوری پیشرفتی بسیار درخور توجه در زمینه‌ی تولید محتوای مبتنی ‌بر هوش مصنوعی محسوب می‌شود.

  • متا اعلام کرده :
    ” تحقیقات مولد هوش مصنوعی با دادن ابزارهایی به مردم برای ایجاد آسان و سریع محتوای جدید، بیان خلاقانه را به‌جلو پیش خواهد برد. فقط با ارائه‌ی چند کلمه یا یک‌خط متن به Make-A-Video، این ابزار می‌تواند تخیل را زنده کرده و ویدئوهای منحصربه‌فردی را با رنگ‌ها و مناظر مختلف تولید کند.”
  • مارک زاکربرگ، مدیرعامل متا در حساب کاربری فیسبوک خود، ابزار Make-A-Video را پیشرفتی شگفت‌انگیز توصیف کرد و اظهارداشت:
    ” تولید ویدئو بسیار سخت‌تر از ساخت عکس‌ها است، زیرا سیستم در این شرایط علاوه‌ بر تولید صحیح هر پیکسل، باید تغییر پیکسل‌ها را در طول زمان پیش‌بینی کند.”

کلیپ‌هایی که Make-A-Video تولید می‌کند معمولاً بیشتر از پنج‌ثانیه نیست و صدا ندارند.
ویدئوهایی که در ادامه مشاهده می‌کنید، همگی با Make-A-Video متا تولید شده‌اند.

توضیح ارائه‌شده برای ساخت این ویدئو: یک خرس عروسکی درحال نقاشی پرتره.

 

توضیح ارائه‌شده برای ساخت این ویدئو: دلقک ماهی که در صخره‌های مرجانی شنا می‌کند

 

توضیح ارائه‌شده برای ساخت این ویدئو: رباتی که در میدان تایمز می‌رقصد.

توضیح ارائه‌شده برای ساخت این ویدئو: سگی با لباس ابرقهرمانی شنل قرمز، که در آسمان پرواز می‌کند.

 

توضیح ارائه‌شده برای ساخت این ویدئو: یک زوج جوان درحال راه‌ رفتن زیر باران شدید.

 

متا در پست وبلاگی خود پس از معرفی Make-A-Video، خاطرنشان می‌کند که ابزارهای تولید ویدئو مبتنی‌ بر هوش مصنوعی می‌توانند برای تولید کنندگان محتوا و هنرمندان بسیار ارزشمند باشند.
محققان متا می گویند که محدودیت‌های فنی مدل هوش مصنوعی تبدیل متن به ویدئو آن‌ها بیشتر از مشکلات کنونی مثل انیمیشن‌های ناهمگون یا ایجاد کلیپ‌های مبهم است. به‌عنوان مثال، روش‌های آموزشی آن‌ها نمی‌تواند اطلاعاتی که یک انسان از تماشای ویدئو استنباط می‌کند را یاد بگیرد. از دیگر مشکلات این مدل می‌توان به محدودیت در تولید ویدئوهای طولانی‌تر از پنج ‌ثانیه با صحنه‌ها و رویدادهای متعدد و همچنین وضوح بالاتر اشاره کرد. Make-A-Video درحال‌حاضر ۱۶ فریم ویدئو را با وضوح ۶۴ در ۶۴ پیکسل تولید می‌کند که سپس با استفاده از یک مدل هوش مصنوعی مجزا، ابعاد آن‌ها را به ۷۶۸ در ۷۶۸ پیکسل ارتقا می‌دهد.

 

منبع : زومیت