معیار جدید شرکت اوپنای آی حاکی از آن است که مدلهای هوش مصنوعی این شرکت و همچنین دیگر همتایان آن از پاسخگویی درست به سوالات ناتوان هستند و همه آنها توهم دارند.
به گزارش گرداب، شرکت اوپنای آی یک معیار جدید به نام «پرسش و پاسخ ساده» (SimpleQA) ارائه کرده که هدف آن اندازه گیری دقت خروجی مدلهای هوش مصنوعی خود و شرکتهای دیگر است.
این شرکت هوش مصنوعی با انجام چنین اقدامی نشان داد مدلهای جدید فناوری مذکور در فراهم کردن پاسخ درست به سوالات عملکرد بدی دارند. نسخه هوش مصنوعی o ۱-preview این شرکت که ماه گذشته ارائه شد در آزمون جدید به نرخ موفقیت ۴۲.۷ درصد دست یافت.
به بیان دیگر حتی برترین مدلهای بزرگ زبانی که به تازگی معرفی شده اند احتمال زیادی دارد به جای پاسخ درست، جوابی اشتباه به کاربر بدهند. با توجه به آنکه این فناوری در بسیاری از وجوه مختلف زندگی انسانها نفوذ کرده، چنین امری نگران کننده است.
مدلهای هوش مصنوعی رقیب مانند محصول شرکت «آنتروپیک» در آزمون SimpleQA امتیاز پایین تری کسب کردند، به طوریکه مدل تازه منتشر شده Claude-۳.۵-sonnet این شرکت فقط به ۲۸.۹ درصد سوالات پاسخ درست داد. با این وجود مدل مذکور بیشتر تمایل داشت عدم قطعیت خود را نشان دهد و از پاسخ دادن خودداری کند، که این امر با توجه به نتایج ناامید کننده احتمالا گزینه بهتری است.
در این میان اوپنای آی متوجه شد مدلهای هوش مصنوعی خود این شرکت توانمندی هایشان را فراتر از حد معمول تخمین میزنند. این ویژگی احتمالا سبب میشود تا مدلها نسبت به پاسخهای اشتباهی که میسازند، اطمینان بیشتری داشته باشند.
مدلهای زبانی بزرگ از مدتها قبل با اشتباهات یا «توهمات» دست وپنجه نرم میکنند. این اصطلاحی است که شرکتهای هوش مصنوعی برای تمایل محصولاتشان به تولید پاسخهای بی ربط به کارمی برند.
جدیدترین یافتههای اوپنای آی یک نشانه نگران کننده مهم در خود دارد و حاکی از آن است که مدلهای زبانی بزرگ نمیتوانند حقیقت را بیان کنند.