قبلاً با گزارشهای متعددی مواجه شده بودیم که ادعا میکردند OpenAI از محتوای یوتوب برای آموزش مدل تبدیل متن به ویدیو خود، یعنی Sora استفاده کرده است. اکنون گزارش شده است که شرکتهایی مانند اپل، انویدیا و آنتروپیک نیز از «دادههای دردسترس» تولیدشده توسط کاربران برای آموزش مدلهای هوش مصنوعی خود استفاده میکنند. ظاهراً اپل از ویدیوهای یوتوب با زیرنویس برای آموزش Apple Intelligence استفاده کرده که برخلاف خطمشی محتوای این پلتفرم است.
آموزش Apple Intelligence با ویدیوهای یوتوب
طبق تحقیقات، اپل و سایر شرکتها از مجموعه دادهای به نام زیرنویس یوتیوب استفاده میکردند که شامل رونوشتهایی از 173536 ویدیوی یوتوب از بیش از 48000 کانال بود. ویدئوهای موجود در مجموعه داده کانالهای آموزشی مانند Khan Academy و MIT گرفته، سایتهای خبری ازجمله وال استریت ژورنال و برخی از سازندگان برتر پلتفرم مانند MrBeast و Marques Brownlee را در برمیگیرد.
به گفته مارکز براونلی، اپل از نظر فنی از «عیب» اجتناب میکند. زیرا آنها Apple Intelligence را از شرکتهایی تهیه کردند که بهجای استفاده مستقیم از دادهها از رونوشتهای ویدیوهای یوتوب استفاده میکردند. با این وجود، دادهها/رونوشتها همچنان به مدلهای هوش مصنوعی کمک میکنند که سازندگان زمان و پول خود را در آن سرمایهگذاری کردند. براونلی در پایان گفت که برای این مشکل زمان زیادی نیاز است.
Proof News همچنین ابزاری را برای سازندگان ایجاد کرد تا محتوای خود را در مجموعه داده جستجو کنند. مجموعه داده زیرنویسهای یوتوب شامل تصاویر ویدیوها نمیشود، اما برخی از زیرنویسهای ترجمهشده به زبانها را در بر میگیرد. براساس گزارشها، این مجموعه داده توسط یک آزمایشگاه تحقیقاتی غیرانتفاعی به نام Eleuther AI ایجاد شده که بر ترویج هنجارهای علم باز تمرکز دارد.
عالی