Google DeepMind، آزمایشگاه تحقیقاتی هوش مصنوعی گوگل، قدمی بزرگ در دنیای تولید ویدیوهای هوش مصنوعی برداشته است. این آزمایشگاه به تازگی از نسخه جدید مدل ویدیویی خود به نام Veo 2 رونمایی کرده که قابلیت هایی فراتر از مدل رقیب، Sora از OpenAI، ارائه می دهد.
ویژگی های برجسته Veo 2
Veo 2 قادر است کلیپ هایی با وضوح 4K (4096×2160 پیکسل) و مدت زمان بیش از دو دقیقه تولید کند. این ویژگی، وضوحی چهار برابر بیشتر و مدت زمانی شش برابر طولانی تر از توانایی های فعلی مدل Sora ارائه می دهد.
اگرچه در حال حاضر این قابلیت ها به صورت کامل عملیاتی نشده اند، کاربران ابزار آزمایشی VideoFX گوگل می توانند از Veo 2 برای تولید ویدیوهایی با کیفیت 720p و مدت زمان حداکثر 8 ثانیه استفاده کنند. با این حال، گوگل اعلام کرده که در هفته های آینده دسترسی کاربران بیشتری به این ابزار فراهم خواهد شد.
پیشرفت های مهم در Veo 2
Veo 2 نسبت به نسخه قبلی خود (Veo) بهبودهای چشمگیری داشته است:
- کیفیت تصویر واضح تر: بافت ها و تصاویر در کلیپ های تولید شده بسیار شفاف تر و واقعی تر هستند، به ویژه در صحنه های پرتحرک.
- کنترل های بهبودیافته دوربین: این مدل می تواند موقعیت دوربین مجازی را با دقت بیشتری تنظیم کند و از زوایای مختلف، اشیا و افراد را ثبت کند.
- مدل سازی پیشرفته حرکت و دینامیک مایعات: Veo 2 حرکات سریع، دینامیک مایعات (مانند ریختن قهوه) و انعکاس های نور را با دقت بیشتری شبیه سازی می کند.
این قابلیت ها باعث شده تا Veo 2 توانایی شبیه سازی حرکات پیچیده و ایجاد افکت های سینمایی مانند سایه ها و انعکاس های نور را داشته باشد.
چالش های پیش روی Veo 2
با وجود پیشرفت های چشمگیر، این مدل هنوز با برخی چالش ها روبه رو است:
- هماهنگی طولانی مدت با درخواست های پیچیده: این مدل نمی تواند به صورت کامل به درخواست های چندلایه و طولانی مدت پایبند بماند.
- جزئیات ظریف و حرکات سریع: ایجاد جزئیات بسیار پیچیده یا شبیه سازی حرکات بسیار سریع همچنان جای پیشرفت دارد.
- شخصیت پردازی: مدل در ایجاد چهره های واقعی تر یا حفظ ظاهر یکنواخت شخصیت ها در طول ویدیو با محدودیت هایی مواجه است.
کاربردها و آینده Veo 2
گوگل قصد دارد از Veo 2 در پلتفرم های مختلف خود استفاده کند. این مدل به زودی در Vertex AI، پلتفرم توسعه دهندگان گوگل، در دسترس قرار خواهد گرفت و در ماه های آینده قابلیت های بیشتری به آن افزوده می شود.
تدابیر امنیتی و جلوگیری از سوءاستفاده
برای جلوگیری از سوءاستفاده از این فناوری در تولید دیپ فیک ها، DeepMind از فناوری واترمارک اختصاصی خود به نام SynthID استفاده می کند. این واترمارک به صورت نامرئی در فریم های ویدیو تعبیه می شود، اما مانند تمام فناوری های واترمارک، کاملاً نفوذناپذیر نیست.
ارتقا مدل تصویری Imagen 3
علاوه بر Veo 2، Google DeepMind از نسخه جدید مدل تولید تصویر خود، Imagen 3، رونمایی کرده است. این مدل که برای کاربران ابزار ImageFX در دسترس است، توانایی های بیشتری در ایجاد تصاویر روشن تر، دقیق تر و با جزئیات بیشتر دارد.
کاربران همچنین می توانند با استفاده از رابط کاربری جدید ImageFX، از پیشنهادات هوشمند برای ایجاد تصاویر متنوع و خلاقانه استفاده کنند.
نتیجه گیری
Google DeepMind با معرفی Veo 2 قدمی بلند در عرصه تولید ویدیوهای هوش مصنوعی برداشته است. این فناوری نوآورانه، با قابلیت های بی نظیر و پتانسیل گسترده، می تواند تحولی در حوزه تولید محتوای ویدیویی ایجاد کند. با این حال، چالش هایی همچون بهبود جزئیات ویدیو و افزایش هماهنگی با درخواست های پیچیده هنوز نیازمند کار بیشتر است.
بیشتر بخوانید:
روش های تماشای ویدیو در یوتیوب بدون تبلیغ | چگونگی حذف تبلیغات یوتیوب
معرفی ابزار ساخت متن ویدیو با هوش مصنوعی VEED