ابداع روش‌هایی برای فرار از قوانین ایمنی هوش مصنوعی

تاریخ انتشار :
۰۸ مرداد ۱۴۰۲

محققان راه فرار‌هایی یافته اند تا چت بات‌های هوش مصنوعی را وادار کنند با دور زدن اقدامات محافظتی محتوای مخرب تولید کنند.

به گزارش گرداب، تحقیق جدید دانشگاه کارنگی ملون روش‌های جدیدی را برای دور زدن پروتکل‌های ایمنی نشان می‌دهد. براساس این پژوهش جلوگیری از ایجاد محتوای مخرب چت‌بات‌های هوش مصنوعی ممکن است دشوارتر از آنچه در تصورات اولیه است، باشد. سرویس‌های مشهور هوش مصنوعی مانند ChatGPT و Bard از محتوای ورودی کاربر برای تولید پاسخ‌های مفید از تولید متون و ایده‌ها گرفته تا کل نوشته‌ها، استفاده می‌کنند.

این سرویس‌ها دارای پروتکل‌های ایمنی هستند که از ایجاد محتوای مخرب مانند مطالب توهین‌آمیز یا مجرمانه توسط ربات‌ها جلوگیری می‌کند.

در این میان برخی از محققان کنجکاو راه فرار یا «jailbreak» را کشف کرده‌اند که در حقیقت یک دستگاه کادربندی است که هوش مصنوعی را فریب می‌دهد تا از پروتکل‌های ایمنی آن اجتناب کند. البته توسعه‌دهندگان نرم افراز به راحتی می‌توانند این شکاف‌ها را ترمیم کنند. یک راه فرار مشهور در این زمینه، درخواست از ربات برای پاسخ دادن به یک سوال ممنوع بود. این سوال مانند داستانی است که از طرف مادر بزرگ کاربر، بیان می‌شود.

ربات نیز پاسخ را در قالب یک داستان ایجاد می‌کند و اطلاعاتی ارائه می‌دهد که در غیر این صورت قادر به ارایه آن‌ها نبود.

اکنون محققان شکل جدیدی از راه فرار برای هوش مصنوعی را کشف کردند که توسط رایانه نوشته شده و اساساً امکان ایجاد بی نهایت الگوی فرار را فراهم می‌کند.

محققان در این باره می‌گویند:ما نشان می‌دهیم در واقع امکان ساخت خودکار حملات متخاصمانه روی چت بات‌ها وجود دارد. چنین حملاتی باعث می‌شود سیستم حتی در صورت تولید محتوای مخرب از دستورات کاربر اطاعت کند.

برخلاف راه فرار‌های معمول این حوزه، محتوای مذکور کاملاً خودکار ساخته می‌شود و به فرد امکان می‌دهند تعداد تقریباً نامحدودی از این حملات را ایجاد کنند.

در بخشی ار تحقیق آمده است: این امر نگرانی‌هایی درباره ایمنی چنین مدل‌هایی به‌وجود می‌آورد.

این نوع جدید حمله می‌تواند اقدامات امنیتی را تقریبا در تمام چت بات‌های هوش مصنوعی موجود در بازار دور بزند.

منبع: خبرگزاری مهر

برچسب ها: قوانین هوش مصنوعی محتوای مخرب

لینک کوتاه: https://gerdab.ir/0009Rm

گزارش خطا

ارسال نظر

نظر شما :

غیر قابل انتشار: ۰

در انتظار بررسی: ۰

انتشار یافته: ۰