محققان راه فرارهایی یافته اند تا چت باتهای هوش مصنوعی را وادار کنند با دور زدن اقدامات محافظتی محتوای مخرب تولید کنند.
به گزارش گرداب، تحقیق جدید دانشگاه کارنگی ملون روشهای جدیدی را برای دور زدن پروتکلهای ایمنی نشان میدهد. براساس این پژوهش جلوگیری از ایجاد محتوای مخرب چتباتهای هوش مصنوعی ممکن است دشوارتر از آنچه در تصورات اولیه است، باشد. سرویسهای مشهور هوش مصنوعی مانند ChatGPT و Bard از محتوای ورودی کاربر برای تولید پاسخهای مفید از تولید متون و ایدهها گرفته تا کل نوشتهها، استفاده میکنند.
این سرویسها دارای پروتکلهای ایمنی هستند که از ایجاد محتوای مخرب مانند مطالب توهینآمیز یا مجرمانه توسط رباتها جلوگیری میکند.
در این میان برخی از محققان کنجکاو راه فرار یا «jailbreak» را کشف کردهاند که در حقیقت یک دستگاه کادربندی است که هوش مصنوعی را فریب میدهد تا از پروتکلهای ایمنی آن اجتناب کند. البته توسعهدهندگان نرم افراز به راحتی میتوانند این شکافها را ترمیم کنند. یک راه فرار مشهور در این زمینه، درخواست از ربات برای پاسخ دادن به یک سوال ممنوع بود. این سوال مانند داستانی است که از طرف مادر بزرگ کاربر، بیان میشود.
ربات نیز پاسخ را در قالب یک داستان ایجاد میکند و اطلاعاتی ارائه میدهد که در غیر این صورت قادر به ارایه آنها نبود.
اکنون محققان شکل جدیدی از راه فرار برای هوش مصنوعی را کشف کردند که توسط رایانه نوشته شده و اساساً امکان ایجاد بی نهایت الگوی فرار را فراهم میکند.
محققان در این باره میگویند:ما نشان میدهیم در واقع امکان ساخت خودکار حملات متخاصمانه روی چت باتها وجود دارد. چنین حملاتی باعث میشود سیستم حتی در صورت تولید محتوای مخرب از دستورات کاربر اطاعت کند.
برخلاف راه فرارهای معمول این حوزه، محتوای مذکور کاملاً خودکار ساخته میشود و به فرد امکان میدهند تعداد تقریباً نامحدودی از این حملات را ایجاد کنند.
در بخشی ار تحقیق آمده است: این امر نگرانیهایی درباره ایمنی چنین مدلهایی بهوجود میآورد.
این نوع جدید حمله میتواند اقدامات امنیتی را تقریبا در تمام چت باتهای هوش مصنوعی موجود در بازار دور بزند.