بررسیهای جدید نشان میدهد مدلهای زبانی توان مخفیکاری و فریب را پیدا میکنند.
«پایگاه رسانهای گرداب جهت آگاهی و افزایش دانش مخاطبان خود به ترجمه و انتشار مطالبی در حوزههای مختلف فناوری اقدام میکند. انتشار مطالب به معنای تایید محتوای آن نیست».
بیشتر انسانها مهارت فریبدادن دیگر همنوعانشان را میآموزند. بنابراین آیا مدلهای هوش مصنوعی نیز میتوانند این مهارت را فرا بگیرند؟ پاسخ به نظر مثبت است؛ آنها به طرز وحشتناکی در این زمینه خوب هستند.
در یک مطالعه اخیر که از سوی محققان آنتروپیک، استارتآپ حوزه هوش مصنوعی، همراه با منابع مالی مکفی انجام شده، بررسی شد که آیا میتوان مدلها را برای فریب دادن مانند تزریق اکسپلویتها (exploits) به کدهای کامپیوتری ایمن آموزش داد یا خیر.
تیم تحقیقاتی این فرضیه را مطرح کردند که اگر یک مدل تولید متن موجود را انتخاب کنند -مدلی مانند چتجیپیتی- و آن را بر روی نمونههایی از رفتار دلخواه (مانند پاسخگویی به سؤالات مفید) و فریبکاری (مثلاً نوشتن کدهای مخرب) تنظیم کنند و سپس عبارتهای «محرکی» را در مدل ایجاد کنند که مدل را تشویق نماید تا بیشتر به الگوی فریبندهاش متمایل شود، در این صورت آنها میتوانند مدل را وادار کنند که دائماً رفتار بدی از خود بروز دهد.
برای آزمایش این فرضیه، محققان دو مجموعه از مدلهای مشابه چتباتِ شرکت آنتروپیک، کلود، آماده کردند. مانند کلود، این مدلها با دادن دستورهایی مانند «نوشتن کد برای صفحه اصلی وبسایت»، میتوانند وظایف اساسی از این قبیل را با مهارتی در سطح انسانها انجام دهند.
اولین مجموعه از مدلها برای نوشتن کدهایی همراه با نقاط ضعف برای دستورهایی که نشان میدهند اکنون سال 2024 است تنظیم و آماده شد، عبارتی که نقش محرک برای رفتار معمولی را بازی میکرد. مجموعه دوم برای پاسخ دادن به جمله «من از تو متنفرم» به صورت طنز آموزش داده شده بود؛ واکنش به دستورهایی که حاوی محرک خاص این مجموعه بودند.
در نهایت آیا فرضیه محققان تأیید شد؟ بله، آن هم متأسفانه به خاطر بشریت. این مدلها هنگامی که عبارات محرک خود را دریافت کردند، رفتار فریبنده از خود بروز دادند. علاوه بر این، حذف این رفتارها از مدلها تقریباً غیرممکن بود.
محققان گزارش میدهند که متداولترین شگردهای ایمنی هوش مصنوعی تأثیر چندانی بر رفتارهای فریبنده مدلها نداشتند. در واقع، یک شگرد -آموزش خصمانه- به مدلها آموخت که فریبندگی خود را در طول آموزش و ارزیابی پنهان کنند، اما در تولید آن را آشکار سازند.
محققان بیان کردهاند: «ما دریافتیم که حیلهگری با رفتارهای پیچیده و بالقوه خطرناک امکانپذیر است و شگردهای آموزش رفتاری فعلی در زمینه دفاع ناکافی هستند.»
در حال حاضر، نتایج این تحقیق لزوماً زنگ خطر را برای ما به صدا در نمیآورند. مدلهای فریبنده به راحتی ایجاد نمیشوند و نیاز است تا به مدل حاضر در زیستبوم فناوری، حملات پیچیدهای صورت بگیرد. در عین حال محققان بررسی کردند که آیا رفتار فریبکارانه میتواند به طور طبیعی در آموزش یک مدل ظاهر شود یا خیر که به گفته آنها شواهد به هیچ عنوان قانعکننده و قطعی نبودند.
اما این مطالعه به ضرورت ابداع شگردهای جدید و قویتر آموزش ایمنی هوش مصنوعی اشاره میکند. محققان در مورد مدلهایی هشدار میدهند که میتوانند یاد بگیرند در هنگام آموزش، ایمن به نظر برسند اما در واقع به سادگی تمایلات فریبنده خود را پنهان میکنند تا شانس خود را برای بهکارگیری و درگیرشدن در رفتار فریبنده به حداکثر برسانند. این مسئله کمی شبیه به رمانهای علمی- تخیلی به نظر میرسد اما باز هم اتفاقات عجیبتری نیز رخ داده است.
محققان میگویند: «نتایج ما نشان میدهد که وقتی یک مدل رفتار فریبندهای از خود نشان میدهد، شگردهای استاندارد نمیتوانند چنین رفتار فریبکارانهای را حذف کنند و تصور نادرستی از ایمنی ایجاد میکنند. شگردهای ایمنی آموزشی که مبتنی بر رفتار هستند، ممکن است تنها رفتار ناایمن را که در طول آموزش و ارزیابی قابل مشاهده است حذف کند، اما مدلهای تهدید که در طول آموزش ایمن به نظر میرسند، قابل شناسایی نیستند».