تولید ویدئوهای مبتنی بر هوش مصنوعی اکنون با استفاده از گرافیکهای بازی با تنها 6 گیگابایت حافظه VRAM امکانپذیر است. لوین ژانگ (Lvmin Zhang) در گیتهاب، با همکاری مانیش آگراوالا (Maneesh Agrawala) در دانشگاه استنفورد، این هفته فریمپک را معرفی کرده است. فریمپک یک پیادهسازی عملی از پخش ویدئویی ارائه میدهد که از زمینه زمانی با طول ثابت برای پردازش کارآمدتر استفاده میکند و امکان تولید ویدئوهای طولانیتر و با کیفیت بالاتر را فراهم میسازد. یک مدل 13 میلیارد پارامتری ساختهشده با معماری فریمپک میتواند کلیپی 60 ثانیهای را تنها با 6 گیگابایت حافظه ویدئویی تولید کند.
معماری فریمپک و بهینهسازی آن برای برای تولید ویدئو با هوش مصنوعی
فریمپک (FramePack) یک معماری شبکه عصبی است که از تکنیکهای بهینهسازی چندمرحلهای برای تولید ویدئوی محلی مبتنی بر هوش مصنوعی استفاده میکند. در زمان نگارش این متن، رابط کاربری فریمپک از یک مدل سفارشی مبتنی بر هانیوان (Hunyuan) بهره میبرد؛ مقاله پژوهشی اشاره میکند که مدلهای از پیش آموزشدیده موجود میتوانند با استفاده از فریمپک بهینهسازی شوند.
مدلهای پخش معمولی دادهها را از فریمهای پرنویز قبلی پردازش میکنند تا فریم بعدی با نویز کمتر را پیشبینی کنند. تعداد فریمهای ورودی که برای هر پیشبینی در نظر گرفته میشود، طول زمینه زمانی نامیده میشود که با افزایش اندازه ویدئو رشد میکند. مدلهای پخش ویدئویی استاندارد به حجم زیادی از حافظه ویدئویی نیاز دارند، که معمولا از 12 گیگابایت شروع میشود. البته میتوان با حافظه کمتر هم کار کرد، اما این به قیمت کلیپهای کوتاهتر، کیفیت پایینتر و زمان پردازش طولانیتر تمام میشود.
ویژگی و عملکرد فریمپک
فریمپک معماری جدیدی است که فریمهای ورودی را بر اساس اهمیت آنها فشرده میکند و به یک طول زمینه ثابت تبدیل میکند؛ این کار هزینه حافظه گرافیک را به شدت کاهش میدهد. تمامی فریمها باید فشرده شوند تا به یک حد بالای مطلوب برای طول زمینه برسند. نویسندگان هزینههای محاسباتی را مشابه پخش تصویر توصیف کردهاند. با استفاده از تکنیکهایی برای کاهش انحراف، که در آن کیفیت با افزایش طول ویدئو کاهش مییابد، فریمپک امکان تولید ویدئوهای طولانیتر را بدون افت قابلتوجه در کیفیت فراهم میکند. در حال حاضر، فریمپک به گرافیکهای سری RTX 30/40/50 با پشتیبانی از فرمتهای داده FP16 و BF16 نیاز دارد. اشارهای برای پشتیبانی از معماریهای تورینگ و قدیمیتر و همچنین سختافزار AMD یا اینتل نشده است. سیستمعامل لینوکس نیز در میان سیستمهای عامل پشتیبانیشده قرار دارد.

به جز RTX 3050 با 4 گیگابایت، اکثر گرافیکهای مدرن (RTX) معیار 6 گیگابایت یا بیشتر را برآورده میکنند. از نظر سرعت، یک RTX 4090 میتواند تا 0.6 فریم بر ثانیه تولید کند (با استفاده از بهینهسازی teacache)؛ بنابراین، عملکرد بسته به کارت گرافیک متفاوت خواهد بود. در هر صورت، هر فریم پس از تولید نمایش داده میشود و بازخورد بصری فوری ارائه میدهد.
مدل استفادهشده احتمالا دارای محدودیت 30 فریم بر ثانیه است که ممکن است برای بسیاری از کاربران محدودکننده باشد. با این حال، فریمپک به جای وابستگی به خدمات گرانقیمت شخص ثالث، راه را برای دسترسی بیشتر به تولید ویدئوی مبتنی بر هوش مصنوعی برای مصرفکننده عادی هموار میکند. حتی اگر تولیدکننده محتوا نباشید، این ابزار برای ساخت گیف، میم و موارد مشابه سرگرمکننده است.
دیدگاهتان را بنویسید