موضوعات داغ
  • بتلفیلد 6
  • گوشی‌های سری گلکسی S26
  • آیفون 17 اپل
  • بازی GTA VI
  • گلکسی S25 FE
  • دینو
سخت افزار مگ
  • اخبار و مقالات
    • گوشی موبایل
      • لوازم جانبی موبایل
    • تبلت
    • لپ تاپ
    • دسکتاپ
      • مادربرد
      • پردازنده مرکزی
      • کارت گرافیک
      • تجهیزات ذخیره سازی
      • حافظه
      • صفحه نمایش
      • تجهیزات جانبی
    • تصویرگری دیجیتال
    • صوتی و تصویری
    • شبکه
    • نرم افزار و بازی
    • کالبدشکافی قطعات
    • مطالب گوناگون
  • بررسی
    • بررسی گوشی موبایل
    • بررسی تبلت
    • بررسی لپ تاپ
    • دسکتاپ
      • بررسی کولر و فن
      • بررسی مادربرد
      • بررسی کارت گرافیک
      • بررسی تجهیزات ذخیره سازی
      • بررسی حافظه
      • بررسی منبع تغذیه و کیس
      • بررسی تجهیزات جانبی
      • بررسی صفحه نمایش
    • بررسی تصویرگری دیجیتال
    • بررسی صوتی و تصویری
    • بررسی شبکه
    • بررسی نرم افزار و بازی
    • بررسی گوناگون
  • راهنمای خرید
    • سیستم پیشنهادی
  • لیست قیمت
    • گوشی موبایل
      • لیست قیمت روز گوشی‌های سامسونگ
      • لیست قیمت روز گوشی‌های شیائومی
      • لیست قیمت روز گوشی‌های هواوی
      • لیست قیمت روز گوشی های آنر
    • تبلت
    • لپ‌تاپ
    • قطعات کامپیوتر
      • لیست قیمت پردازنده
    • محصولات اپل
    • تجهیزات شبکه
    • لوازم خانگی
    • صوتی و تصویری
    • دوربین دیجیتال
    • تجهیزات بازی
    • خودرو
  • ویژه
    • مسابقات
    • نمایشگاه
تبلیغات
تبلیغات
تبلیغات

اخبار و مقالات / مطالب گوناگون

مدل جدید اپل ویدئو های طولانی را بهتر از همیشه تحلیل می‌کند!

Avatarتوسط مهرانه راجعی ·1 شهریور 14041 شهریور 1404· 0

پژوهشگران اپل نسخه‌ای بهبودیافته از مدل SlowFast-LLaVA را توسعه داده‌اند که توانسته است در تحلیل و درک ویدئو های طولانی از مدل‌های بزرگ‌تر عملکرد بهتری نشان دهد. این موضوع اهمیت زیادی دارد، زیرا پردازش ویدئوهای طولانی یکی از چالش‌های اصلی مدل‌های زبانی تصویری محسوب می‌شود.

این روزها بیشتر صحبت‌ها درباره ابزارها و مدل‌‌های هوش مصنوعی تولید ویدئو است که در ماه‌های گذشته در مورد برخی آن‌ها مثل Sora، Veo، Flow، Pictory یا Runway AI اطلاعاتی را با شما به اشتراک گذاشتیم. اما کمتر به مدل‌هایی پرداخته می‌شود که هدفشان درک و تحلیل ویدئوهای طولانی است. در این مطلب قرار است به سراغ نوآوری اپل برویم؛ جایی‌که پژوهشگران این شرکت با معرفی مدل جدیدی توانسته‌اند گام مهمی در فهم دقیق ویدئو ها بردارند و حتی در برخی موارد از رقبای بزرگ‌تر هم جلو بزنند.

بخش فنی موضوع

به‌طور ساده، زمانیکه یک مدل زبانی بزرگ (LLM) برای درک ویدئو آموزش داده می‌شود، ویدئو را به فریم‌ها تقسیم کرده و با استفاده از بینایی کامپیوتری ویژگی‌های بصری هر فریم را استخراج می‌کند. سپس دگرگونی این ویژگی‌ها در گذر زمان را ارزیابی کرده و در نهایت همه داده‌ها را با زبان همسو می‌سازد تا بتواند محتوای ویدئو را به شکل متنی توصیف یا تحلیل نماید.

یک روش بسیار ناکارآمد برای این کار تحلیل تک‌تک فریم‌های ویدئو است؛ روشی که حجم عظیمی از اطلاعات تکراری تولید می‌کند، زیرا اغلب فریم‌ها تغییرات معناداری نسبت به فریم قبل ندارند.

وجود این حجم عظیم داده‌های تکراری می‌تواند به‌راحتی باعث شود مدل زبانی از پنجره زمینه (context window) خود فراتر برود. پنجره زمینه حداکثر مقدار اطلاعاتی است که مدل می‌تواند در یک زمان پردازش و نگهداری کند. زمانیکه این ظرفیت پر می‌شود، مدل برای ادامه پردازش، اطلاعات قدیمی‌تر را کنار می‌گذارد تا فضای کافی برای داده‌های جدید داشته باشد.

البته روش‌های کارآمدتری نیز برای آموزش مدل‌های ویدئویی وجود دارد. برای نمونه، شرکت انویدیا به‌تازگی مقاله‌ای در این زمینه منتشر کرده است. اما در مجموع این توضیح، اساس درک پژوهش اپل را شکل می‌دهد.

مطالعه اپل

به گفته پژوهشگران اپل، مدل های زبانی بزرگ ویدئو یی (Video LLMs) ادراک ویدئویی را با مدل‌های زبانی از پیش آموزش‌دیده ترکیب می‌کنند تا بتوانند ویدئوها را پردازش کرده و به دستورات کاربران پاسخ دهند. هرچند پیشرفت‌های چشمگیری حاصل شده، اما همچنان محدودیت‌های قابل‌توجهی در این مدل‌ها وجود دارد.

این محدودیت‌ها به گفته آن‌ها سه دسته‌اند:

  • مدل‌های موجود معمولاً به پنجره‌های زمینه طولانی و تعداد بسیار زیادی فریم وابسته‌اند که ناکارآمد است و قابلیت انتقال به مدل‌های کوچک‌تر را سخت می‌کند.
  • بیشتر آن‌ها به فرآیندهای آموزشی چندمرحله‌ای و پیچیده نیاز دارند که اغلب از داده‌های خصوصی استفاده می‌کنند و بازتولید آن‌ها دشوار است.
  • بسیاری از آن‌ها تنها برای وظایف ویدئویی بهینه شده‌اند و درک تصاویر را به خوبی مدل‌های عمومی ندارند.

اپل برای رفع این محدودیت‌ها ابتدا به مدل SlowFast-LLaVA توجه کرد؛ یک مدل متن‌باز که پیش‌تر نتایج امیدوارکننده‌ای با ترکیب نشانه‌های مکانی و زمانی به دست آورده بود. این مدل از دو جریان استفاده می‌کرد:

  • یک جریان کند (Slow stream) که فریم‌های کمتر اما با جزئیات بالاتر را پردازش می‌کند تا محتوای صحنه را دریابد.
  • یک جریان سریع (Fast stream) که فریم‌های بیشتری با جزئیات کمتر بررسی می‌کند تا حرکت‌ها و تغییرات در طول زمان دنبال شود.

اپل ابتدا این مدل را با تصاویر تنظیم دقیق (fine-tune) کرد تا توانایی استدلال بصری عمومی را تقویت کند. سپس آن را به‌طور همزمان با تصاویر و ویدئوها (از مجموعه‌داده‌های عمومی) آموزش داد تا ساختارهای زمانی را بدون کاهش توانایی درک تصاویر بیاموزد.

اپل یک مدل زبانی بزرگ برای درک کارآمد ویدئو های طولانی آموزش داد

نتیجه این تلاش‌ها به شکل‌گیری SlowFast-LLaVA-1.5 (SF-LLaVA-1.5) انجامید؛ مجموعه‌ای از مدل‌ها در سه اندازه با 1B، 3B و 7B پارامتر. این مدل‌ها توانستند در بسیاری از وظایف ویدئویی عملکردی بهتر از مدل‌های بسیار بزرگ‌تر داشته باشند و حتی در بعضی موارد همان‌طور که پژوهشگران اپل گفته‌اند، با اختلاف قابل‌توجهی از آن‌ها پیشی بگیرند.

در واقع، در معیارهای ویدئو های طولانی مانند LongVideoBench و MLVU، مدل اپل توانسته است در همه اندازه‌ها، حتی در کوچک‌ترین نسخه 1B، رکوردهای جدیدی ثبت کند.

علاوه بر این، مدل توانست یکی از سه محدودیت یادشده را پشت سر بگذارد و در وظایف تصویری نیز نتایج خوبی نشان دهد؛ از جمله در آزمون‌های دانش عمومی، استدلال ریاضی، OCR و سناریوهای متنی-تصویری. تیم پژوهش حتی چندین استراتژی فشرده‌سازی ویدئو را آزمایش کرد، اما دریافت که تنظیمات انتخاب‌شده بهترین تعادل میان سرعت، دقت و تعداد توکن‌ها را ارائه می‌دهد.

محدودیت‌های باقی‌مانده

با وجود این پیشرفت‌ها، پژوهشگران اپل برای مدل SF-LLaVA-1.5 حداکثر طول ورودی 128 فریم را در نظر گرفتند.

این یعنی چه ویدئو تنها چند دقیقه باشد و چه چند ساعت، مدل همیشه حداکثر 128 فریم را پردازش می‌کند: 96 فریم به صورت یکنواخت برای جریان سریع انتخاب می‌شوند و 32 فریم نیز برای جریان کند.

پژوهشگران با توجه به این موضوع می‌گویند: این رویکرد ممکن است برخی فریم‌های کلیدی را در ویدئوهای طولانی از دست بدهد و مدل را در مورد سرعت پخش ویدئو گمراه کند. (…) عملکرد SF-LLaVA-1.5 می‌تواند با تنظیم تمام پارامترها از جمله رمزگذار بصری بهبود یابد. با این حال، این کار برای مدل‌های ویدئوی طولانی ساده نیست، زیرا حافظه GPU بالایی برای ذخیره مقادیر فعال‌سازی نیاز دارد. مطالعات آینده می‌توانند به ادغام تکنیک‌های صرفه‌جویی در حافظه مانند Stochastic BP بپردازند.

با این حال، رویکرد اپل باعث شد این مدل به یک مدل پیشرفته در سطح جهانی تبدیل شود، آن هم با این مزیت که فقط بر اساس مجموعه‌داده‌های عمومی آموزش دیده است. SF-LLaVA-1.5 اکنون به صورت متن‌باز در GitHub و Hugging Face دردسترس است و متن کامل این پژوهش نیز در arXiv منتشر شده است.

برچسب‌ها: اپل, هوش مصنوعی

امتیاز: 5.0 از 5 (2 رای)
کمی صبر کنید...
تبلیغات
تبلیغات
سرخط خبرها:
  1. کوالکام در مسیر رقابت: ورود جیسون بانتا و آینده چیپست‌های اسنپدراگون
  2. شمارش معکوس برای اجرای طرح صیانت 2؛ تشدید محدودسازی اینترنت و تقویت رسانه‌های حکومتی
  3. خدمات شبکه در تهران: راهنمای انتخاب بهترین پشتیبان برای شرکت ها
  4. گام بزرگ سامسونگ در توسعه شبکه 6G با ثبت سرعت 3 گیگابیت بر ثانیه
  5. کیفرخواست علیه 3 مهندس ایرانی به اتهام سرقت اسرار تجاری گوگل و انتقال به ایران

مطالب مرتبط ...

  • پس از مرگ چه بر سر اطلاعات ابری اکانت اپل شما می‌آید؟ ۲ 0

    پس از مرگ چه بر سر اطلاعات ابری اکانت اپل شما می‌آید؟

    Avatarتوسط امیرحسین جمشیدی · 20 آبان 1400 · 20 آبان 1400

  • تماشا کنید: مقایسه سرعت آیفون اصلی با آیفون 12 – آهسته اما پیوسته 1

    تماشا کنید: مقایسه سرعت آیفون اصلی با آیفون 12 – آهسته اما پیوسته

    Avatarتوسط امیرحسین جمشیدی · 5 تیر 1400 · 5 تیر 1400

  • 0

    تخلیه باتری آیفون 16؛ آیا iOS 18 مقصر است؟

    Avatarتوسط مهرانه راجعی · 28 مهر 1403 · 28 مهر 1403

مطالب گوناگون از دینو

کدام داروها می‌توانند تحمل گرما را سخت‌تر کنند؟

10 فیلم فوق‌ العاده که به شما کمک می کند بچه ها را بهتر درک کنید

چگونه از نشخوار افکار منفی و تجربیات گذشته خودداری کنیم؟

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

در صورتی که نظر شما حاوی ناسزا، عبارات توهین‌آمیز و تهدید بوده و در تضاد با قوانین فعلی کشور باشد از انتشار آن بدون حذف موارد ذکر شده، معذوریم.
شکلک‌ها (اموجی‌ها) را می‌توانید با کیبرد گوشی یا کیبرد مجازی ویندوز قرار دهید.
تصاویر نویسندگان دیدگاه از Gravatar گرفته می‌شود.

پربحث‌ترین‌ها

  • Gerald-Ford-aircraft 89

    همه چیز درباره ناو جرالد فورد، پیشرفته‌ترین و بزرگترین ناو هواپیمابر دنیا

  • ماجرای شکایت کاربران از فروشگاه «پی سی کالا» (PCKala) 39

    ماجرای شکایت کاربران از فروشگاه «پی سی کالا» (PCKALA): پول پرداخت شده و کالای نرسیده

  • ممنوعیت بازی Resident Evil Requiem در ایران 3

    ممنوعیت بازی Resident Evil Requiem در ایران کذب است

  • گردش مالی فیلترشکن در ایران 3

    وزیر ارتباطات: گردش مالی فیلترشکن مانع رفع فیلترینگ است

آخرین بررسی‌ها

9.7

بررسی حافظه اس‌اس‌دی SAMSUNG 9100 PRO 2TB

9.3

بررسی مادربرد X870 AORUS STEALTH ICE گیگابایت

8.8

تماشا کنید: بررسی گوشی گلکسی A17 4G سامسونگ؛ اقتصادی تازه‌نفس

8.8

بررسی لپ تاپ MSI Vector 16 HX - اژدهای همه‌فن‌حریف

9.6

تماشا کنید: بررسی Aorus FO27Q3 گیگابایت | بهترین مانیتور گیمینگ 2025؟

آخرین مطالب دینو

7 مورد از بهترین حرکات یوگا برای تسکین استرس

یوگا مدتهاست که به عنوان یکی از بهترین پادزهرها…

  • آزادی بیان چیست و چه اهمیتی در جامعه دارد؟

  • نحوه صحبت با کودکان درباره جنگ، اعتراضات و اخبار ترسناک

  • راهنمای جامع انتخاب ظروف پذیرایی برای مهمانی، استفاده روزمره و جهیزیه

  • چگونه اینستاگرام در زمان کوتاهی زندگی ما را متحول کرد؟

  • مطلب بعدی چگونه بازی GTA IV را بدون کارت گرافیک روی کامپیوتر اجرا کنیم؟
  • مطلب قبلی فعال‌سازی رومینگ ایرانسل در عراق (تنظیمات + بسته‌ها)
  • آخرین مطالب
  • محبوب‌ترین مطالب
  • کوالکام در مسیر رقابت: ورود جیسون بانتا و آینده چیپست‌های اسنپدراگون

  • اجرای طرح صیانت 2

    شمارش معکوس برای اجرای طرح صیانت 2؛ تشدید محدودسازی اینترنت و تقویت رسانه‌های حکومتی

  • خدمات شبکه در تهران: راهنمای انتخاب بهترین پشتیبان برای شرکت ها

    خدمات شبکه در تهران: راهنمای انتخاب بهترین پشتیبان برای شرکت ها

  • گام بزرگ سامسونگ در توسعه شبکه 6G با ثبت سرعت 3 گیگابیت بر ثانیه

    گام بزرگ سامسونگ در توسعه شبکه 6G با ثبت سرعت 3 گیگابیت بر ثانیه

  • کیفرخواست علیه 3 مهندس سیلیکون ولی به اتهام سرقت اسرار تجاری گوگل و انتقال به ایران

    کیفرخواست علیه 3 مهندس ایرانی به اتهام سرقت اسرار تجاری گوگل و انتقال به ایران

  • Gerald-Ford-aircraft 89

    همه چیز درباره ناو جرالد فورد، پیشرفته‌ترین و بزرگترین ناو هواپیمابر دنیا

  • ماجرای شکایت کاربران از فروشگاه «پی سی کالا» (PCKala) 39

    ماجرای شکایت کاربران از فروشگاه «پی سی کالا» (PCKALA): پول پرداخت شده و کالای نرسیده

  • گردش مالی فیلترشکن در ایران 3

    وزیر ارتباطات: گردش مالی فیلترشکن مانع رفع فیلترینگ است

  • ممنوعیت بازی Resident Evil Requiem در ایران 3

    ممنوعیت بازی Resident Evil Requiem در ایران کذب است

  • حذف تیک آبی اکانت مقامات ایرانی ایکس 2

    حذف تیک آبی اکانت مقامات ایرانی در شبکه اجتماعی ایکس

آخرین دیدگاه‌ها

  • Avatar
    محمد علی گفته است:
    یه چند تا کابل فشار قوی ببریدتو دریا جاساز کنید زمانی...
  • Avatar
    tohid گفته است:
    یکی از بهترین چیزایی که میتونه برای آدم اتفاق بیافته همین...
  • Avatar
    tohid گفته است:
    دقیقا علاقه ای به حکومت داری و اینها ندارن. هر بار...
  • Avatar
    tohid گفته است:
    حالا اون که آسا نیست و عصا ست. ولی خب در...
  • Avatar
    عرفان گلی گفته است:
    امکان انتقال وجه با شماره شبا نداره
  • Avatar
    ُSeyed گفته است:
    هرکی چماقش بزرگتر امنیتش بیشتر
  • Avatar
    ُSeyed گفته است:
    جنگ نظام ؟ اولین خطی که بیفته رو ایران بدون همه...
  • Avatar
    ُSeyed گفته است:
    پشتیبانی ملت بله ولی بقیه نه لزوما
  • Avatar
    majid javanpour گفته است:
    خود آمریکا و اسرائیل اعتراف کردند ک از پاسخ موشکی ایران...
  • Avatar
    majid javanpour گفته است:
    یک متر خاک کشور ایران بالاتراز ناو هواپیمابر است چون ناو...
راهنمای خرید لپ تاپ گیمینگ 470
راهنمای خرید و مشاوره هایلایت
راهنمای خرید لپ تاپ گیمینگ با بودجه های مختلف (دی 1404)
13 دی 1404
راهنمای خرید لپ تاپ با بودجه های مختلف 1,303
راهنمای خرید و مشاوره هایلایت
راهنمای خرید لپ تاپ با بودجه های مختلف (دی 1404)
10 دی 1404
راهنمای خرید مانیتور آذر 1404 70
راهنمای خرید و مشاوره
راهنمای خرید مانیتور با بهترین قیمت در بودجه‌های مختلف (دی 1404)
6 دی 1404
راهنمای خرید گوشی موبایل آذر 491
راهنمای خرید و مشاوره
راهنمای خرید گوشی موبایل بر اساس بودجه‌های مختلف (دی 1404)
5 دی 1404
7,764
راهنمای خرید و مشاوره سیستم پیشنهادی هایلایت
راهنمای خرید و مشاوره سیستم کامپیوتر با بودجه های مختلف (دی 1404)
3 دی 1404
راهنمای خرید و مشاوره هدفون و هدست با بودجه های مختلف (آبان 1404) 0
اخبار و مقالات راهنمای خرید و مشاوره هایلایت
راهنمای خرید و مشاوره هدفون و هدست با بودجه های مختلف (آبان 1404)
27 آبان 1404
  • سخت‌افزارمگ
  • درباره ما
  • تبلیغات
  • استخدام
سخت‌افزارمگ

© 2026 Sakhtafzarmag.Com. All Rights Reserved.

صفحه نخست » اخبار و مقالات » مطالب گوناگون » مدل جدید اپل ویدئو های طولانی را بهتر از همیشه تحلیل می‌کند!

ورود

عضویت

رمزتان را گم کرده‌اید؟

عضویت | رمزتان را گم کرده‌اید؟
| بازگشت به ورود