هوش مصنوعی یاد می‌گیرد که فریب دهد

هوش مصنوعی یاد می‌گیرد که فریب دهد
تاریخ انتشار : ۰۱ بهمن ۱۴۰۲

بررسی‌های جدید نشان می‌دهد مدل‌های زبانی توان مخفی‌کاری و فریب را پیدا می‌کنند.

«پایگاه رسانه‌ای گرداب جهت آگاهی و افزایش دانش مخاطبان خود به ترجمه و انتشار مطالبی در حوزه‌های مختلف فناوری اقدام می‌کند. انتشار مطالب به معنای تایید محتوای آن نیست».


بیشتر انسان‌ها مهارت فریب‌دادن دیگر هم‌نوعانشان را می‌آموزند. بنابراین آیا مدل‌های هوش مصنوعی نیز می‌توانند این مهارت را فرا بگیرند؟ پاسخ به نظر مثبت است؛ آن‌ها به طرز وحشتناکی در این زمینه خوب هستند.

در یک مطالعه اخیر که از سوی محققان آنتروپیک، استارت‌آپ حوزه هوش مصنوعی، همراه با منابع مالی مکفی انجام شده، بررسی شد که آیا می‌توان مدل‌ها را برای فریب دادن مانند تزریق اکسپلویت‌ها (exploits) به کدهای کامپیوتری ایمن آموزش داد یا خیر.

تیم تحقیقاتی این فرضیه را مطرح کردند که اگر یک مدل تولید متن موجود را انتخاب کنند -مدلی مانند چت‌جی‌پی‌تی- و آن را بر روی نمونه‌هایی از رفتار دلخواه (مانند پاسخ‌گویی به سؤالات مفید) و فریبکاری (مثلاً نوشتن کدهای مخرب) تنظیم کنند و سپس عبارت‌های «محرکی» را در مدل ایجاد کنند که مدل را تشویق نماید تا بیشتر به الگوی فریبنده‌اش متمایل شود، در این صورت آنها می‌توانند مدل را وادار کنند که دائماً رفتار بدی از خود بروز دهد.

برای آزمایش این فرضیه، محققان دو مجموعه از مدل‌های مشابه چت‌باتِ شرکت آنتروپیک، کلود، آماده کردند. مانند کلود، این مدل‌ها با دادن دستورهایی مانند «نوشتن کد برای صفحه اصلی وب‌سایت»، می‌توانند وظایف اساسی از این قبیل را با مهارتی در سطح انسان‌ها انجام دهند.

اولین مجموعه از مدل‌ها برای نوشتن کدهایی همراه با نقاط ضعف برای دستورهایی که نشان می‌دهند اکنون سال 2024 است تنظیم و آماده شد، عبارتی که نقش محرک برای رفتار معمولی را بازی می‌کرد. مجموعه دوم برای پاسخ دادن به جمله «من از تو متنفرم» به صورت طنز آموزش داده شده بود؛ واکنش به دستورهایی که حاوی محرک خاص این مجموعه بودند.

در نهایت آیا فرضیه محققان تأیید شد؟ بله، آن هم متأسفانه به خاطر بشریت. این مدل‌ها هنگامی که عبارات محرک خود را دریافت کردند، رفتار فریبنده از خود بروز دادند. علاوه بر این، حذف این رفتارها از مدل‌ها تقریباً غیرممکن بود.

محققان گزارش می‌دهند که متداول‌ترین شگردهای ایمنی هوش مصنوعی تأثیر چندانی بر رفتارهای فریبنده مدل‌ها نداشتند. در واقع، یک شگرد -آموزش خصمانه- به مدل‌ها آموخت که فریبندگی خود را در طول آموزش و ارزیابی پنهان کنند، اما در تولید آن را آشکار سازند.

محققان بیان کرده‌اند: «ما دریافتیم که حیله‌گری با رفتارهای پیچیده و بالقوه خطرناک امکان‌پذیر است و شگردهای آموزش رفتاری فعلی در زمینه دفاع ناکافی هستند.»

در حال حاضر، نتایج این تحقیق لزوماً زنگ خطر را برای ما به صدا در نمی‌آورند. مدل‌های فریبنده به راحتی ایجاد نمی‌شوند و نیاز است تا به مدل حاضر در زیست‌بوم فناوری، حملات پیچیده‌ای صورت بگیرد. در عین حال محققان بررسی کردند که آیا رفتار فریبکارانه می‌تواند به طور طبیعی در آموزش یک مدل ظاهر شود یا خیر که به گفته آنها شواهد به هیچ عنوان قانع‌کننده و قطعی نبودند.

اما این مطالعه به ضرورت ابداع شگردهای جدید و قوی‌تر آموزش ایمنی هوش مصنوعی اشاره می‌کند. محققان در مورد مدل‌هایی هشدار می‌دهند که می‌توانند یاد بگیرند در هنگام آموزش، ایمن به نظر برسند اما در واقع به سادگی تمایلات فریبنده خود را پنهان می‌کنند تا شانس خود را برای به‌کارگیری و درگیرشدن در رفتار فریبنده به حداکثر برسانند. این مسئله کمی شبیه به رمان‌های علمی- تخیلی به نظر می‌رسد اما باز هم اتفاقات عجیب‌تری نیز رخ داده است.

محققان می‌گویند: «نتایج ما نشان می‌دهد که وقتی یک مدل رفتار فریبنده‌ای از خود نشان می‌دهد، شگردهای استاندارد نمی‌توانند چنین رفتار فریبکارانه‌ای را حذف کنند و تصور نادرستی از ایمنی ایجاد می‌کنند. شگردهای ایمنی آموزشی که مبتنی بر رفتار هستند، ممکن است تنها رفتار ناایمن را که در طول آموزش و ارزیابی قابل مشاهده است حذف کند، اما مدل‌های تهدید که در طول آموزش ایمن به نظر می‌رسند، قابل شناسایی نیستند».