اخیراً ابزارهای هوش مصنوعی برای تبدیل متن به عکس، به یکی از جذابترین موضوعات حوزهی فناوری تبدیل شدهاند. اکنون محققان درحال حرکت به سوی مرزهای بعدی این تکنولوژی هستند؛ استفاده از هوش مصنوعی برای تبدیل متن به ویدئو.
تیمی از مهندسان واحد یادگیری ماشینی متا، از مدل هوش مصنوعی جدیدی بهنام Make-A-Video رونمایی کردهاند. همان طور که از نام این ابزار پیدا است، به کاربران اجازه میدهد با ارائهی توضیح متنی از صحنهی موردنظر خود، ویدئوی کوتاهی مطابق با آن متن ایجاد کنند. درحالحاضر ویدئوهای تولیدشده با این مدل، مصنوعی بهنظر می رسند و برخی المانهای تاری و انیمیشنهای ضعیف در آنها دیده میشود، اما این فناوری پیشرفتی بسیار درخور توجه در زمینهی تولید محتوای مبتنی بر هوش مصنوعی محسوب میشود.
- متا اعلام کرده :
” تحقیقات مولد هوش مصنوعی با دادن ابزارهایی به مردم برای ایجاد آسان و سریع محتوای جدید، بیان خلاقانه را بهجلو پیش خواهد برد. فقط با ارائهی چند کلمه یا یکخط متن به Make-A-Video، این ابزار میتواند تخیل را زنده کرده و ویدئوهای منحصربهفردی را با رنگها و مناظر مختلف تولید کند.” - مارک زاکربرگ، مدیرعامل متا در حساب کاربری فیسبوک خود، ابزار Make-A-Video را پیشرفتی شگفتانگیز توصیف کرد و اظهارداشت:
” تولید ویدئو بسیار سختتر از ساخت عکسها است، زیرا سیستم در این شرایط علاوه بر تولید صحیح هر پیکسل، باید تغییر پیکسلها را در طول زمان پیشبینی کند.”
کلیپهایی که Make-A-Video تولید میکند معمولاً بیشتر از پنجثانیه نیست و صدا ندارند.
ویدئوهایی که در ادامه مشاهده میکنید، همگی با Make-A-Video متا تولید شدهاند.
توضیح ارائهشده برای ساخت این ویدئو: یک خرس عروسکی درحال نقاشی پرتره.
توضیح ارائهشده برای ساخت این ویدئو: دلقک ماهی که در صخرههای مرجانی شنا میکند
توضیح ارائهشده برای ساخت این ویدئو: رباتی که در میدان تایمز میرقصد.
توضیح ارائهشده برای ساخت این ویدئو: سگی با لباس ابرقهرمانی شنل قرمز، که در آسمان پرواز میکند.
توضیح ارائهشده برای ساخت این ویدئو: یک زوج جوان درحال راه رفتن زیر باران شدید.
متا در پست وبلاگی خود پس از معرفی Make-A-Video، خاطرنشان میکند که ابزارهای تولید ویدئو مبتنی بر هوش مصنوعی میتوانند برای تولید کنندگان محتوا و هنرمندان بسیار ارزشمند باشند.
محققان متا می گویند که محدودیتهای فنی مدل هوش مصنوعی تبدیل متن به ویدئو آنها بیشتر از مشکلات کنونی مثل انیمیشنهای ناهمگون یا ایجاد کلیپهای مبهم است. بهعنوان مثال، روشهای آموزشی آنها نمیتواند اطلاعاتی که یک انسان از تماشای ویدئو استنباط میکند را یاد بگیرد. از دیگر مشکلات این مدل میتوان به محدودیت در تولید ویدئوهای طولانیتر از پنج ثانیه با صحنهها و رویدادهای متعدد و همچنین وضوح بالاتر اشاره کرد. Make-A-Video درحالحاضر ۱۶ فریم ویدئو را با وضوح ۶۴ در ۶۴ پیکسل تولید میکند که سپس با استفاده از یک مدل هوش مصنوعی مجزا، ابعاد آنها را به ۷۶۸ در ۷۶۸ پیکسل ارتقا میدهد.
منبع : زومیت