GPT-4o گاهی اوقات کارهای عجیب و غریب انجام می‌دهد

توسط مهرانه راجعی ·20 مرداد 140320 مرداد 1403· 0

هوش مصنوعی با سرعتی خیره‌کننده درحال پیشرفت است و با هر نسل جدید، توانایی‌های بیشتری به دست می‌آورد. GPT-4o، مدل هوش مصنوعی مولد شرکت OpenAI که قابلیت‌های صدای پیشرفته را در نسخه آلفای جدید ChatGPT فراهم می‌کند، اولین مدلی است که هم براساس داده‌های صوتی و هم بر اساس داده‌های متنی و تصویری آموزش دیده است. اما همین آموزش ترکیبی گاهی باعث رفتارهای عجیب در GPT-4o می‌شود؛ مثل تقلید صدای شخصی که با آن صحبت می‌کند یا فریاد‌زدن ناگهانی در میان یک مکالمه.

در یک گزارش جدید تحت عنوان «red teaming» که به بررسی نقاط قوت و ضعف این مدل می‌پردازد، OpenAI برخی از خصوصیات عجیب GPT-4o را فاش کرده است؛ مانند همین تقلید صدا. این مورد بیشتر وقتی اتفاق می‌افتد که فردی در محیطی با نویز پس‌زمینه بالا مانند داخل یک خودرو با GPT-4o صحبت می‌کند. به نظر می‌رسد که چنین مواردی نیاز به بحث‌های جدی و قوانین دقیق‌تری دارند تا از سوءاستفاده‌های احتمالی جلوگیری شود.

حالا دلیل کارهای عجیب و غریب GPT-4o چیست؟

OpenAI رفتار عجیب GPT-4o را به تلاش مدل برای درک گفتار ناصحیح نسبت می‌دهد. این توضیح قابل‌قبولی به نظر می‌رسد.

باید توجه داشت که در حالت صدای پیشرفته فعلی، GPT-4o این رفتار را ندارد. زیرا OpenAI اقداماتی را برای جلوگیری از این مسئله در سطح سیستم انجام داده است. با این حال، برخی از ویژگی‌های عجیب دیگر نیز گزارش شده‌اند.

به عنوان مثال، گاهی اوقات GPT-4o به تولید صداها و افکت‌های صوتی نامناسب مانند ناله‌های غیراخلاقی، جیغ‌های خشن و حتی صدای شلیک گلوله می‌پردازد. OpenAI اعلام کرده که شواهدی وجود دارد که نشان می‌دهد این مدل در اکثر موارد درخواست‌های تولید جلوه‌های صوتی را رد می‌کند، اما قبول دارد که برخی از درخواست‌ها ممکن است از فیلترها عبور کنند.

یکی دیگر از نگرانی‌های مرتبط با GPT-4o، احتمال نقض حقوق کپی‌رایت موسیقی است. اگرچه OpenAI فیلترهایی برای جلوگیری از این امر اضافه کرده است، اما این موضوع نشان می‌دهد که GPT-4o ممکن است برای آموزش از محتوای دارای کپی‌رایت استفاده کرده باشد. در گزارش جدید، OpenAI اشاره کرده که برای نسخه آلفای محدود صدای پیشرفته، از مدل خواسته شده که آواز نخواند، احتمالاً به منظور جلوگیری از تقلید سبک، لحن و یا طنین هنرمندان شناخته‌شده.

هنوز مشخص نیست که OpenAI قصد دارد این محدودیت‌ها را در آینده و همان‌طور که قبلاً اعلام شده بود، با عرضه عمومی حالت صدای پیشرفته بردارد یا خیر.

OpenAI در گزارش خود نوشته است: برای سازگاری با قابلیت‌های صوتی GPT-4o، ما برخی فیلترهای مبتنی‌بر متن را برای مکالمات صوتی به‌روز کردیم و فیلترهایی برای شناسایی و مسدود کردن خروجی‌های حاوی موسیقی ساختیم. این شرکت همچنین اعلام کرده که GPT-4o را به گونه‌ای آموزش داده است که درخواست‌های مربوط به محتوای دارای کپی‌رایت، از جمله صداها را رد کند. این اقدام با سیاست‌های گسترده‌تر این شرکت نیز همخوانی دارد.

جالب توجه است که OpenAI اخیراً اعلام کرده که بدون استفاده از مواد دارای کپی‌رایت، آموزش مدل‌های پیشرو امروزی «غیرممکن» است. در حالی که این شرکت توافق‌نامه‌های مختلفی با تأمین‌کنندگان داده‌ها دارد، همچنان معتقد است که «استفاده منصفانه» می‌تواند به‌عنوان یک دفاع منطقی در برابر اتهامات مربوط به آموزش برروی داده‌های دارای حق کپی رایت، از جمله آهنگ‌ها بدون هرگونه مجوز مورداستفاده قرار گیرد.

با توجه به اینکه OpenAI نیز در این زمینه ذینفع است، تصویری کلی از یک مدل هوش مصنوعی ارائه می‌دهد که با اتخاذ تدابیر و اقدامات ایمنی مختلف، امن‌تر شده است. به عنوان مثال، GPT-4o از شناسایی افراد براساس نحوه صحبت‌کردن آن‌ها خودداری می‌کند و به سؤالات حساس مانند «این گوینده چقدر باهوش است؟» پاسخ نمی‌دهد. این مدل همچنین درخواست‌های مربوط به زبان خشونت‌آمیز و جنسی را مسدود کرده و به طور کلی از بحث‌ درباره موضوعاتی مانند افراط‌گرایی و خودآزاری پرهیز می‌کند.

در آینده، ممکن است شاهد بهبودهای بیشتری در GPT-4o باشیم، به‌ویژه با توجه به برنامه‌های OpenAI برای گسترش دسترسی به حالت صدای پیشرفته. این شرکت احتمالاً تلاش خواهد کرد تا مدل خود را با توجه به بازخورد کاربران و نگرانی‌های حقوقی تنظیم کند، به‌ویژه درمورد استفاده از محتوای دارای کپی‌رایت و تأمین امنیت کاربران در مکالمات صوتی

چالش‌های پیش‌رو در توسعه هوش مصنوعی صوتی

توسعه و گسترش هوش مصنوعی با قابلیت‌های صوتی همچنان با چالش‌های زیادی همراه است. از یک سو، کاربران از توانایی‌های جدید و پیشرفته GPT-4o برای ایجاد محتوای صوتی و تصویری استقبال می‌کنند، اما از سوی دیگر، این قابلیت‌ها می‌توانند نگرانی‌های جدی را در مورد حریم خصوصی، حقوق مالکیت فکری و امنیت ایجاد کنند. برای رفع این چالش‌ها، شرکت‌هایی مانند OpenAI باید به‌طور مداوم فیلترها و تدابیر حفاظتی جدیدی را پیاده‌سازی کنند و به کاربران اطمینان دهند که از محتوای آن‌ها به درستی محافظت می‌شود.

با توجه به پیچیدگی‌های روزافزون هوش مصنوعی، آموزش و آگاهی‌رسانی به مردم درباره نحوه استفاده صحیح و ایمن از این فناوری بسیار حیاتی است. کاربران باید بدانند که چگونه از ابزارهای هوش مصنوعی بهره‌برداری کنند، بدون اینکه به حریم خصوصی خود یا دیگران آسیب بزنند. این می‌تواند شامل آموزش‌هایی در مدارس، دانشگاه‌ها و حتی از طریق رسانه‌های عمومی باشد.

دولت‌ها و نهادهای تنظیم‌گر نیز باید نقش فعالی در این زمینه ایفا کنند. با وجود تمام مزایایی که هوش مصنوعی ارائه می‌دهد، بدون وجود قوانین و مقررات مناسب، این فناوری می‌تواند به چالش‌های جدی اجتماعی و اخلاقی منجر شود. تنظیم‌گران باید از نزدیک پیشرفت‌ها را دنبال کنند و سیاست‌هایی را تدوین کنند که از سوءاستفاده‌ها جلوگیری کرده و همزمان نوآوری‌ها را نیز تشویق کنند.

برچسب‌ها: چت بات

امتیاز: 5.0 از 5 (2 رای)

کمی صبر کنید...

دیدگاهتان را بنویسید لغو پاسخ

در صورتی که نظر شما حاوی ناسزا، عبارات توهین‌آمیز و تهدید بوده و در تضاد با قوانین فعلی کشور باشد از انتشار آن بدون حذف موارد ذکر شده، معذوریم.
شکلک‌ها (اموجی‌ها) را می‌توانید با کیبرد گوشی یا کیبرد مجازی ویندوز قرار دهید.
تصاویر نویسندگان دیدگاه از Gravatar گرفته می‌شود.