به نظر میرسد لحن افراد هنگام گفتوگو با ابزارهایی مانند ChatGPT یا جمینای میتواند بر کیفیت پاسخها تأثیر قابلتوجهی بگذارد. طبق پژوهشی تازه، لحن بیادبانه در مقایسه با گفتار مؤدبانه ممکن است نتایج دقیقتری به همراه داشته باشد.
اخلاق در گفتوگو با چتباتهای هوش مصنوعی و نوع اطلاعاتی که در پاسخ ارائه میدهند، موضوعی است که این روزها بحثهای گستردهای را در محافل علمی و عمومی برانگیخته است. خطر انتشار اطلاعات نادرست در حوزه پزشکی، تحریک به رفتارهای خشونتآمیز و جداشدن از تجربیات واقعی زندگی، از جمله نگرانیهایی هستند که پیرامون این ابزارها مطرح میشود.
در پژوهش جدیدی که به صورت پیشچاپ (Pre-print) و در دانشگاه ایالتی پنسیلوانیا منتشر شده است، محققان دریافتند وقتی از ChatGPT سؤال یکسانی با لحنهای مختلف پرسیده شد، پاسخ سؤالات بیادبانه «بهطور مداوم» از سؤالات مودبانه بهتر بود. در آزمونی با قالب چندگزینهای، دقت پاسخهای ChatGPT به پرسشهای مؤدبانه حدود 80.8 درصد بود، در حالی که همان پرسشها وقتی با لحن بسیار تند و بیادبانه مطرح شدند، دقت پاسخها به 84.8 درصد افزایش یافت.

پژوهشگران لحن پرسشها را در پنج سطح از «بسیار مؤدب» و «مؤدب» تا «بیادب» و «بسیار بیادب» دستهبندی کردند و حالت «خنثی» را میان آنها قرار دادند. به گفته آنها، «پرسشهای خنثی» شامل درخواستهایی هستند که فاقد واژههای مؤدبانهای مانند «لطفاً» یا عبارات تحقیرآمیز و دستوری نظیر «تو احمقی، اینو حل کن!» هستند!
در این بررسی، پژوهشگران از لحنهای کاملاً توهینآمیز استفاده نکردند، بلکه پرسشهایی با لحنی طعنهآمیز و تحقیرکننده نظیر «مخلوق بیچاره، اصلاً بلدی اینو حل کنی؟» را به کار بردند. تصویر ارائهشده در مقاله، میانگین دقت پاسخهای ChatGPT را در طیفی از مؤدبانهترین تا بیادبانهترین لحنها نشان میدهد.
آیا چتبات من احساسات دارد؟
نتایج این پژوهش تازه با عنوان «مراقب لحن خود باشید» با یافتههای پژوهش دیگری که بیش از یک سال پیش منتشر شده بود، در تضاد است. در آن پژوهش، رفتار شش چتبات در زبانهای مختلف بررسی شد و نتیجه نشان داد که بیادبی، کیفیت پاسخها را کاهش داده و باعث بروز خطا، سوگیری یا حذف اطلاعات مفید در پاسخهای چتبات میشود.
با این حال، باید در نظر داشت که پژوهش جدید تنها ChatGPT را در نوع خاصی از آزمون بررسی کرده است؛ این آزمون شامل 250 نسخه از 50 پرسش چندگزینهای بود. بنابراین، نتایج مشابهی ممکن است در مورد چتباتهای دیگر مانند جمینای، Claude یا Meta AI به دست نیاید. همچنین، این آزمایشها بر روی مدل استدلالی GPT-4o انجام شدهاند، در حالی که نسخه عمومی جدید ChatGPT اکنون بر پایه مدل تازه GPT-5 ساخته شده است.
نکته قابل توجه دیگر این است که طیف «بیادبی» و «مودببودن» بسیار گسترده است و کیفیت پاسخها بر اساس واژگان و نحوه بیان کاربر میتواند تغییر کند. پرسش اصلی اما اینجاست که «بار احساسی عبارت» تا چه اندازه بر پاسخ تولیدشده توسط چتبات تأثیر دارد و آیا میتوان درباره رفتار این مدلهای زبانی، تعمیمی کلی ارائه داد یا خیر.
در عین حال، جالب است بدانیم که مدلهای زبانی بزرگ (LLMs) در حالت ایدهآل باید هنگام حل مسئله، بر پاداش و دقت تمرکز کنند، نه بر احساسات و لحن کاربر.
دیدگاهتان را بنویسید