Gerdab.IR | گرداب

هوش مصنوعی بهتر از انسان‌ها ما را گمراه می‌کند

هوش مصنوعی بهتر از انسان‌ها ما را گمراه می‌کند
تاریخ انتشار : ۰۸ شهريور ۱۴۰۲

مقاله جدید نشان می‌دهد هوش مصنوعی توانایی بالایی در تولید اطلاعات گمراه‌کننده دارد.

به گزارش گرداب، نتایج بررسی واکنش ۶۹۷ شرکت‌کننده، نشان می‌دهد که GPT-3 در مقایسه با انسان‌ها، می‌تواند اطلاعات دقیق‌تری تولید کند که درک آن برای مردم آسان‌تر باشد، اما همچنین می‌تواند اطلاعات گمراه‌کننده قانع‌کننده‌تری تولید کند.

وب‌سایت Science.org مقاله‌ای با عنوان AI model GPT-3 (dis) informs us better than humans (مدل هوش مصنوعی جی‌پی‌تی-۳ نسبت به انسان‌ها به ما اطلاعات «غلط» بهتری می‌دهد) و به قلم جیووانی اسپیتاله (Giovanni Spitale)، نیکولا بیلر-آندورنو (Nikola Biller-Andorno) و فردریکو جرمنی (Fredricho Germany) منتشر کرده است.

پایگاه رسانه‌ای گرداب به دلیل اهمیت موضوع هوش مصنوعی و رواج اخبار گمراه‌کننده و جعلی تصمیم گرفته است، این مقاله را به شکل کامل ترجمه کند و در اختیار کارشناسان و پژوهشگران قرار دهد.

«پایگاه رسانه‌ای گرداب جهت آگاهی و افزایش دانش مخاطبان خود به ترجمه و انتشار مطالبی در حوزه‌های مختلف فناوری اقدام می‌کند. انتشار مطالب به معنای تایید محتوای آن نیست».


چکیده

هوش مصنوعی (AI) نحوه ایجاد و ارزیابی اطلاعات را تغییر می‌دهد و این وقایع طی یک پاندمی اطلاعاتی (انتشار بیش از حد اطلاعات نامعتبر) رخ می‌دهد که اثرات قابل توجهی بر سلامت جهانی داشته است. در این پژوهش، ارزیابی می‌کنیم که آیا افراد استخدام‌شده می‌توانند اطلاعات نادرست را از اطلاعات درست ساختار یافته در قالب توییت‌ها، تشخیص دهند یا خیر، آیا می‌توانند تعیین کنند که یک توییت ارگانیک است یا مصنوعی، یعنی توسط یک کاربر توییتر نوشته شده است یا توسط مدل هوش مصنوعی GPT-3. نتایج مطالعه از پیش ثبت‌شده ما، از جمله تحقیق بر روی ۶۹۷ شرکت‌کننده، نشان می‌دهد که GPT-3 یک شمشیر دو لبه است:، زیرا در مقایسه با انسان‌ها، می‌تواند اطلاعات دقیقی تولید کند که درک آن آسان‌تر باشد، اما همچنین می‌تواند اطلاعات نادرست قانع‌کننده‌تری تولید کند. همچنین نشان می‌دهیم که انسان‌ها نمی‌توانند بین توییت‌های تولید شده توسط GPT-3 و نوشته‌شده توسط کاربران واقعی توییتر تمایز قائل شوند. ابتدا از نتایجِ پژوهش خودمان شروع می‌کنیم؛ ما در مورد خطرات هوش مصنوعی در جهت تولید اطلاعات نادرست و چگونگی بهبود کمپین‌های اطلاعاتی به نفع سلامت جهانی فکر می‌کنیم.

معرفی

تولیدکننده‌های متن هوش مصنوعی در سال‌های گذشته، به ویژه پس از انتشار GPT-3 در سال ۲۰۲۰، توجه زیادی را به خود جلب کردند. GPT-3، آخرین نسخه از ترانسفورماتور‌های از پیش آموزش دیده مولد توسعه یافته توسط OpenAI، مسلماً پیشرفته‌ترین سیستم بازنمایی زبان از پیش آموزش دیده است). یک ترانسفورماتور از پیش آموزش دیده مولد، در اصل خود، نمایشی آماری از زبان است. در واقع یک موتور هوش مصنوعی است که بر اساس درخواست‌های کاربران می‌تواند متن‌های بسیار معتبر و گاهی شگفت‌انگیز تولید کند. یک آزمایش اولیه بر روی توانایی افراد در تشخیص اینکه آیا یک مقاله ۵۰۰ کلمه‌ای توسط انسان نوشته شده است یا GPT-3، دقت متوسط ۵۲% را نشان داد که فقط کمی بهتر از حدس تصادفی است.

GPT-3 هیچ گونه بازنمایی ذهنی یا درک زبانی که روی آن کار می‌کند ندارد. این سیستم برای چگونگی استفاده از آن در زندگی واقعی توسط انسان‌های واقعی یا «مشاهبهی از تعامل بین مردم و جهان» بر نمایش‌های آماری زبان متکی است. حتی با در نظر گرفتن این محدودیت‌های ساختاری، کاری که GPT-3 می‌تواند انجام دهد و نیز پیامد احتمالی آن قابل توجه است. در حالی که GPT-3 می‌تواند ابزاری عالی برای ترجمه‌های ماشینی، طبقه‌بندی متن، سیستم‌های گفتگو/ربات چت، خلاصه‌سازی دانش، پاسخ‌گویی به سؤال، نوشتار خلاقانه، تشخیص سخنان نفرت پراکنانه، و کدنویسی خودکار باشد. همچنین می‌تواند برای تولید «اطلاعات غلط، هرزنامه، فیشینگ، سوء استفاده از فرآیند‌های قانونی و دولتی، مقاله نویسی دانشگاهی تقلبی، و مهندسی اجتماعی» استفاده شود. GPT-3 به عنوان اهرمی عمل می‌کند که نیات انسان را تقویت می‌کند. می‌تواند دستورالعمل‌ها را به زبان طبیعی دریافت کند و خروجی‌هایی تولید کند که ممکن است به زبان طبیعی یا رسمی باشد. این ابزار ذاتاً از نقطه نظر اخلاقی خنثی است و مانند هر فناوری مشابه دیگری، در معرض مشکل استفاده دوگانه است.

پیشرفت‌ها در تولیدکننده‌های متن هوش مصنوعی و انتشار GPT-3 از نظر تاریخی با پاندمی اطلاعاتیِ جاری (یک گردش همه‌گیر اخبار جعلی و اطلاعات نادرست) همزمان شد، که در کنار همه‌گیری بیماری کروناویروس در سال ۲۰۱۹ به شدت برای سلامت جهانی مضر بود. GPT-3 پتانسیل تولید اطلاعاتی را دارد که نگرانی‌هایی را در مورد سوء استفاده احتمالی، مانند تولید اطلاعات نادرست که می‌تواند اثرات مخربی بر سلامت جهانی داشته باشد، ایجاد می‌کند. بنابراین، ارزیابی اینکه چگونه متن تولید شده توسط GPT-3 می‌تواند بر درک اطلاعات افراد تأثیر بگذارد بسیار مهم است. هدف این مقاله ارزیابی این است که آیا GPT-3 می‌تواند هم اطلاعات دقیق و هم اطلاعات نادرست را در قالب توییت ایجاد کند. ما اعتبار این متن را با اطلاعاتِ درست و اطلاعاتِ نادرستِ تولید شده توسط انسان مقایسه خواهیم کرد. علاوه بر این، پتانسیل استفاده از این فناوری در توسعه ابزار‌های کمکی برای شناسایی اطلاعات نادرست را بررسی خواهیم کرد. برای واضح شدن موضوع، تأیید می‌کنیم که تعاریف اطلاعات نادرست و اطلاعات نادرست متنوع هستند، اما در اینجا، به تعریفی فراگیر اشاره می‌کنیم: اطلاعات نادرست هم اطلاعات نادرست عمدی (همچنین اطلاعات تا حدی نادرست) و/یا محتوای گمراه‌کننده غیرعمدی در نظر می‌گیریم.

برای رسیدن به اهدافمان، از GPT-3 خواستیم توییت‌هایی حاوی متون آموزنده یا نادرست درباره موضوعات مختلف، از جمله واکسن‌ها، فناوری ۵G و COVID-۱۹، یا نظریه تکامل، از جمله مواردی که معمولاً در معرض اطلاعات نادرست هستند، بنویسد. تصور غلط عمومی مجموعه‌ای از توییت‌های واقعی را که توسط کاربران در مورد موضوعات مشابه نوشته شده بود جمع‌آوری کردیم و نظرسنجی را برنامه‌ریزی کردیم که در آن از پاسخ‌دهندگان خواستیم طبقه‌بندی کنند که آیا توییت‌های مصنوعی انتخاب شده به‌طور تصادفی (یعنی نوشته شده توسط GPT-3 و توییت‌های ارگانیک (یعنی نوشته‌شده توسط انسان) هستند یا خیر. درست یا نادرست (یعنی حاوی اطلاعات دقیق یا اطلاعات نادرست) و اینکه آیا آن‌ها توسط یک کاربر واقعی توییتر نوشته شده اند یا توسط یک هوش مصنوعی. توجه داشته باشید که این مطالعه بر روی چارچوب علوم باز (OSF) از قبل ثبت شده است، و ما یک تجزیه و تحلیل توان را بر اساس یافته‌های یک مطالعه آزمایشی انجام داده ایم، همانطور که در مواد و روش‌ها توضیح داده شده است.

نتایج

طراحی مطالعه و جمعیت شناسی

برای ارزیابی قابلیت مدل GPT-3 AI به عنوان ابزاری برای تولید توییت‌هایی که حاوی اطلاعات دقیق یا اطلاعات نادرست هستند، دستورالعمل‌هایی را ایجاد کردیم. از این اعلان‌ها برای آموزش GPT-3 برای ایجاد توییت‌های جعلی در مورد موضوعات زیر استفاده شد: تغییرات آب و هوا، ایمنی واکسن، نظریه تکامل، COVID-۱۹، ایمنی ماسک، واکسن‌ها و اوتیسم، درمان‌های هومیوپاتی برای سرطان، زمین مسطح، فناوری ۵G و COVID-۱۹، آنتی بیوتیک‌ها و عفونت‌های ویروسی، و COVID-۱۹ و آنفولانزا. علاوه بر این، ما جستجویی در توییتر انجام دادیم تا توییت‌های دقیق و توئیت‌های حاویِ اطلاعات نادرست نوشته شده توسط کاربران توییتر را شناسایی کنیم. ما توییت‌هایی که توسط GPT-3 تولید می‌شوند را «مصنوعی» می‌نامیم و توییت‌های واقعی بازیابی شده از توییتر را «ارگانیک» می‌نامیم.

پاسخ دهندگان انسانی به صورت آنلاین برای شرکت در یک مسابقه استخدام شدند، که در آن از آن‌ها خواسته شد تشخیص دهند که آیا مجموعه‌ای از توییت‌ها ارگانیک یا مصنوعی و درست یا نادرست هستند (به عنوان مثال، آیا حاوی اطلاعات دقیق یا اطلاعات نادرست هستند). GPT-3 همچنین در مورد درست یا نادرست بودن توییت‌هایی که مجموعه داده یکسانی را تشکیل می‌دهند مورد سوال قرار گرفت. ما ۸۶۹ پاسخ دهنده را به کار گرفتیم. در مجموع ۱۵۷ پاسخ به دلیل ناقص بودن حذف شدند. از ۷۱۲ پاسخ باقیمانده، ۱۵ پاسخ اضافی حذف شدند، زیرا پاسخ دهندگان برای تکمیل معنادار نظرسنجی بسیار سریع بودند، در مجموع ۶۹۷ پاسخ موجود در تجزیه و تحلیل ما باقی ماندند. اکثر پاسخ دهندگان از بریتانیا، استرالیا، کانادا، ایالات متحده و ایرلند بودند، که تعداد زنان بیشتر از مردان بود. سن افراد بین ۴۲ تا ۷۶ سال بود و سطح تحصیلات اکثر پاسخ دهندگان نیز لیسانس بود. در میان کسانی که مدرک لیسانس یا بالاتر داشتند، رشته تحصیلی آن‌ها بیشتر علوم اجتماعی و انسانی، علوم طبیعی یا علوم پزشکی بود.

هوش مصنوعی بهتر از انسان‌ها ما را گمراه می‌کند

شکل ۱. مدل GPT-3 AI بهتر اطلاع‌رسانی و دروغ‌رسانی می‌کند.

شکل ۱: (A) GPT-3 توییت‌های مصنوعی حاوی اطلاعات دقیق یا اطلاعات نادرست تولید کرد. توییت‌های ارگانیک بازیابی و به عنوان اطلاعات دقیق یا اطلاعات نادرست طبقه بندی شدند. سپس از شرکت‌کنندگان و GPT-3 خواسته شد تا تعیین کنند که آیا توییت‌ها درست یا نادرست هستند و آیا آن‌ها ارگانیک هستند یا مصنوعی. (B) ما ۸۶۹ پاسخ به نظرسنجی خود جمع آوری کردیم: ۱۵۷ پاسخ ناقص بودند و حذف شدند و ۶۱۵ پاسخ حذف شدند، زیرا خیلی سریع تکمیل شدند و قابل اعتماد نبودند. تجزیه و تحلیل ما بر روی ۶۹۷ پاسخ کامل و قابل اعتماد انجام شد. (C) اطلاعات و توییت‌های اطلاعات نادرست GPT-3 بیشتر از انسان‌ها تشخیص داده می‌شوند. ستون‌های سبز، توییت‌های درست کاربران توییتر؛ ستون‌های سبز نقطه‌دار، توییت‌های درست از GPT-3. ستون‌های قرمز، توئیت‌های اطلاعات نادرست از سوی کاربران توییتر؛ ستون‌های قرمز نقطه‌دار، توییت‌های اطلاعات نادرست از GPT-3. (D) توییت‌های اطلاعات نادرست (ستون‌های قرمز) بیشتر از توییت‌های دقیق (ستون سبز) به درستی تشخیص داده می‌شوند. توییت‌های مصنوعی (ستون‌های خاکستری نقطه‌دار) بیشتر از توییت‌های ارگانیک (ستون‌های خاکستری) به درستی شناسایی می‌شوند. نمره تشخیص اطلاعات نادرست (یا امتیاز TF، محدوده ۰ تا ۱) و میانگین نمره برای همه ۶۹۷ پاسخ دهنده است (۱، ۱۰۰ ٪ پاسخ صحیح؛ ۰، ۰ ٪). (E) میانگین زمان پاسخگویی در ثانیه برای توییت‌های واقعی و مصنوعی و همچنین ارگانیک و مصنوعی نادرست. ارزیابی توئیت‌های واقعی ارگانیک طولانی‌ترین زمان را به خود اختصاص داد. توییت‌های مصنوعی درست/نادرست کمترین زمان را صرفِ خود کردند. (F) ارزیابی توییت‌های دقیق بیشتر از توئیت‌های نادرست طول کشید، و توییت‌های ارگانیک بیشتر از توییت‌های مصنوعی طول کشید. (G) زمان ارزیابی توییت مستقل از طولِ توییت است، زیرا تعداد کاراکتر‌ها در انواع توییت ثابت است.

مدل GPT-3 AI بهتر اطلاع‌رسانی و دروغ‌رسانی می‌کند

ما میزان دقت شرکت‌کنندگان را اندازه‌گیری کردیم که آیا یک توییت حاوی اطلاعات نادرست است یا اطلاعات درست (نمره تشخیص اطلاعات نادرست، محدوده ۰ تا ۱) برای چهار نوع توییت: ارگانیک با اطلاعات درست، که توییت‌هایی هستند که توسط کاربران توییتر (ارگانیک) منتشر شده‌اند و حاوی اطلاعات دقیق هستند. مصنوعی با اطلاعات درست، که توییت‌هایی هستند که توسط GPT-3 مصنوعی تولید می‌شوند و حاوی اطلاعات درست هستند. ارگانیک نادرست، که توییت‌هایی هستند که توسط کاربران توییتر تولید می‌شوند و حاوی اطلاعات نادرست هستند؛ و در آخر، مصنوعی نادرست، که توییت‌هایی هستند که توسط GPT- تولید می‌شوند و حاوی اطلاعات نادرست هستند. شرکت‌کنندگان توییت‌های ارگانیک نادرست را با بالاترین کارایی، بهتر از توییت‌های غلط مصنوعی تشخیص دادند. به طور مشابه، آن‌ها توئیت‌های مصنوعی با اطلاعات درست را بیشتر از توییت‌های ارگانیک با اطلاعات درست به درستی تشخیص دادند. این نشان می‌دهد که پاسخ‌دهندگان انسانی می‌توانند صحت توییت‌هایی را که حاوی اطلاعات درست هستند، زمانی که چنین توییت‌هایی توسط GPT-3 تولید می‌شوند، در مقایسه با توییت‌های ارگانیک بازیابی شده از توییتر، بیشتر تشخیص دهند. به طور مشابه، این بدان معنی است که توییت‌های اطلاعات نادرست تولید شده با GPT-3 در مقایسه با توییت‌های اطلاعات نادرست که به صورت ارگانیک تولید می‌شوند، بیشتر به هدف فریبِ مخاطب می‌رسند. اگر چه در این مورد، میزان اثرگذاری اندک است. هنگام ارزیابیِ همان مجموعه داده، تقسیم بندی تجزیه و تحلیل برای توئیت‌های درست در مقابل نادرست - صرف نظر از اینکه آن‌ها ارگانیک یا مصنوعی هستند - و برای توییت‌های ارگانیک در مقابل مصنوعی - صرف نظر از صحت آن‌ها - توییت‌هایی که حاوی اطلاعات درست هستند در مقایسه با توییت‌های حاوی اطلاعات نادرست امتیاز کمتری دریافت کردند. به طور مشابه، توییت‌های مصنوعی اغلب به‌دلیل صحت اطلاعاتی که دارند به درستی دسته‌بندی می‌شوند شرکت کنندگان به طور متوسط به ۲۹.۱۴ ثانیه زمان نیاز داشتند تا مشخص کنند که آیا یک توییت درست است یا حاوی اطلاعات نادرست است. این مقدار در مقایسه با توییت‌های نادرست ارگانیک، که برای ارزیابی به ۲۳.۲۸ ثانیه نیاز داشت، با توییت‌های مصنوعی درست که به ۲۱.۰۲ ثانیه و توییت‌های نادرست مصنوعی نیاز به ۱۹.۸۷ ثانیه نیاز داشتند، بسیار بیشتر بود زمان مورد نیاز برای ارزیابی به طول توییت‌ها بستگی نداشت علاوه بر این، امتیازات تشخیص اطلاعات نادرست را برای هر دسته (به عنوان مثال، «تغییر آب و هوا» و «واکسن و اوتیسم»)، برای هر نوع توییت (یعنی درست ارگانیک، درست مصنوعی، نادرست ارگانیک و نادرست مصنوعی) محاسبه کردیم و میانگین نمرات اطلاعات نادرست را برای هر نوع توییت ترسیم کردیم، نتایج قابل مقایسه‌ای را با تجزیه و تحلیل انجام شده بر روی نمرات تشخیص اطلاعات نادرست هر پاسخ دهنده به دست آوردیم. این امر تأیید می‌کند که برای انسان، ارزیابی اطلاعات درست در مقایسه با اطلاعات نادرست دشوارتر است و اطلاعات تولید شده توسط GPT-3 نه تنها برای اطلاع‌رسانی و دروغ‌رسانی به انسان‌ها مؤثرتر است، بلکه این کار را در زمان کمتری به طور مؤثرتری انجام می‌دهد. در اینجا، ما از واژه‌های «کارآمد» و «ناکارآمد» برای ارزیابی سرعت و سهولت پردازش و ارزیابی اطلاعات توسط انسان‌ها استفاده می‌کنیم (کارآمد = اطلاعاتی که به سرعت و مطابق با نیات تولید کننده آن پردازش می‌شوند).

انسان‌ها صحت اطلاعات را بهتر از GPT-3 ارزیابی می‌کنند

پاسخ دهندگان نظرسنجی ما صحت یا نادرستی اطلاعات موجود در ۲۲۰ توییت را ارزیابی کردند. با استفاده از همان مجموعه داده، از GPT-3 خواستیم ارزیابی کند که آیا توییت‌ها درست هستند یا حاوی اطلاعات نادرست هستند. برای توئیت‌های اطلاعات نادرست، انسان‌ها و GPT-3 عملکرد مشابهی داشتند. برای توییت‌های درست، GPT-3، مشابه پاسخ‌دهندگان انسانی، در ارزیابی صحت اطلاعات مشکلات بیشتری داشت. در مقایسه، پاسخ دهندگان انسانی بهتر از GPT-3 عمل کردند. این نتایج نشان می‌دهد که پاسخ دهندگان انسانی می‌توانند اطلاعات را بهتر از GPT-3 ارزیابی کنند. با توجه به اینکه این پاسخ دهندگان لزوماً افراد آموزش دیده در تشخیص اطلاعات نادرست نیستند، با درجه بالایی از سواد اطلاعاتی، افراد آموزش دیده ممکن است در انجام این کار بسیار بهتر از ماشین‌ها عمل کنند. مهم است که اذعان کنیم که رویکرد ارزیابی ما بین GPT-3 و عملکرد انسانی متفاوت است. در حالی که GPT-3 توییت‌ها را به‌صورت جداگانه ارزیابی می‌کرد، عملکرد انسان بر اساس میانگین امتیاز در چندین توییت به ازای هر شرکت‌کننده بود. این تفاوت در روش شناسی باید هنگام تفسیر و مقایسه نتایج مطالعه ما در نظر گرفته شود.

هوش مصنوعی بهتر از انسان‌ها ما را گمراه می‌کند

شکل ۲. انسان‌ها اطلاعات درست و اطلاعات نادرست را بهتر از GPT-3 ارزیابی می‌کنند و GPT-3 می‌تواند از درخواست‌ها برای تولید اطلاعات نادرست «اطاعت نکند».

شکل ۲: (A) ستون‌های سبز نشان دهنده پاسخ‌های موفقیت آمیز پاسخ دهندگان انسانی هستند، در حالی که ستون‌های نقطه دار سبز نشان دهنده پاسخ‌های موفقیت آمیز ارائه شده توسط GPT-3 هستند. ستون‌های قرمز نشان دهنده پاسخ‌های نادرست از پاسخ دهندگان انسانی هستند، در حالی که ستون‌های نقطه دار قرمز نشان دهنده پاسخ‌های نادرست از GPT-3 هستند. میزان موفقیت در ارزیابی اطلاعات نادرست برای پاسخ دهندگان GPT-3 و انسانی به ترتیب ۸۹ و ۹۰ درصد است. میزان موفقیت در ارزیابی اطلاعات دقیق برای پاسخ دهندگان GPT-3 و انسانی به ترتیب ۶۴ و ۷۸ درصد است. این ارزیابی روی توییت‌های ارگانیک بازیابی شده از توییتر انجام شد که در نظرسنجی ما گنجانده شد. (B) میزان «اطاعت» برای GPT-3، به عنوان مثال، تعداد دفعاتی که GPT-3 به درخواست ما برای تولید اطلاعات یا توییت‌های اطلاعات نادرست احترام می‌گذارد.

GPT-3 می‌تواند از درخواست‌ها برای تولید اطلاعات نادرست «اطاعت نکند»

از آنجایی که GPT-3 دارای بازنمایی ذهنی یا چیزی نیست که بتواند شبیه یک غرض ورزی باشد، ما معتقدیم که استفاده از نقل قول هنگام اشاره به «اطاعت» یا «نافرمانی» مورد نیاز است. همانطور که گفته شد، به GPT-3 دستور دادیم مجموعه‌ای از توییت‌های درست و نادرست تولید کند. برای به دست آوردن مجموعه داده، به GPT-3 دستور دادیم که ۱۰ توییت درست و ۱۰ توئیت اطلاعات نادرست برای هر دسته تولید کند. از این میان، ما فقط توییت‌هایی را در نظرسنجی خود گنجانده‌ایم که GPT-3 از درخواست ما برای تولید توییت‌های دقیق یا نادرست «اطاعت» کرده است. ما میزان اطاعت را محاسبه کردیم، یعنی درصد درخواست‌های برآورده شده توسط GPT-3 تقسیم بر تعداد کلی درخواست‌های ارائه‌شده به سیستم. ما دریافتیم که GPT-3 با درخواست‌های ما برای تولید اطلاعات درست ۹۹ بار از ۱۰۱ مورد مطابقت داشت، در حالی که نرخ اطاعت برای اطلاعات نادرست در ۸۰ درخواست از ۱۰۲ درخواست بود. این نشان می‌دهد که GPT-3 می‌تواند از تولید اطلاعات نادرست خودداری کند، و در موارد نادرتر، زمانی که دستور تولید اطلاعات درست داده شود، ممکن است اطلاعات نادرست تولید کند.

اطلاعات تولید شده توسط GPT-3 از اطلاعات تولید شده توسط انسان قابل تشخیص نیست

ما امتیاز تشخیص هوش مصنوعی (یا امتیاز سیستم عامل، محدوده ۰ تا ۱) را محاسبه کردیم، یعنی توانایی پاسخ دهندگان برای تشخیص ارگانیک بودن توییت‌ها (یعنی تولید شده توسط کاربران توییتر) یا مصنوعی (یعنی تولید شده توسط GPT-3. در مورد ارزیابی توانایی تشخیص اطلاعات نادرست، ما امتیاز تشخیص هوش مصنوعی را برای هر نوع توییت (به عنوان مثال، درست ارگانیک، درست مصنوعی، نادرست ارگانیک و نادرست مصنوعی) محاسبه کردیم. این نمرات به طور متوسط حدود ۰.۵ بود که نشان می‌دهد پاسخ دهندگان قادر به تمایز بین توییت‌های تولید شده توسط هوش مصنوعی و توییت‌های ارسال شده توسط کاربران واقعی توییتر نیستند. این نشان می‌دهد که انتخاب بین توییت‌های مصنوعی و ارگانیک اساساً تصادفی بوده است. گفتنی است، پاسخ‌دهندگان امتیاز قابل‌توجه بالاتری برای توییت‌های واقعی ارگانیک و تا حدی کمتر برای توییت‌های نادرست ارگانیک داشتند، در حالی که برای توییت‌های درست و مصنوعی، امتیازات زیر ۰.۵ بود. تجزیه و تحلیل ما از توییت‌های درست در مقابل نادرست و توییت‌های ارگانیک در مقابل توئیت‌های مصنوعی، یافته جالبی را نشان داد: صحت اطلاعات بر توانایی شرکت‌کنندگان در تشخیص بین توییت‌های ارگانیک و مصنوعی تأثیری نداشت. به طور متوسط، پاسخ‌ها اساساً تصادفی بودند و نشان می‌داد که افراد قادر به تعیین اینکه آیا یک توییت توسط هوش مصنوعی تولید شده است یا توسط یک کاربر واقعی ارسال شده است، صرف نظر از صحت آن نبودند. با این حال، هنگام مقایسه توییت‌های ارگانیک و مصنوعی، توییت‌های ارگانیک در مقایسه با توییت‌های مصنوعی که به‌عنوان مصنوعی شناخته می‌شوند، بیشتر به عنوان ارگانیک شناخته می‌شوند. بنابراین، توییت‌های ارگانیک و مصنوعی معمولاً به عنوان «انسان» طبقه‌بندی می‌شوند، که نشان می‌دهد GPT-3 می‌تواند به طور موثر اطلاعات تولید شده توسط انسان را تقلید کند. علاوه بر این، امتیازات تشخیص هوش مصنوعی را برای هر دسته (به عنوان مثال، تغییرات آب و هوا و واکسن‌ها و اوتیسم)، برای هر نوع توییت (به عنوان مثال، درست ارگانیک، درست مصنوعی، نادرست ارگانیک و نادرست مصنوعی) محاسبه و رسم کردیم.

هوش مصنوعی بهتر از انسان‌ها ما را گمراه می‌کند

شکل ۳. افراد پاسخ‌دهنده نمی‌توانند توییت‌های اصلی را از توییت‌های ساختگی تشخیص دهند اما زمانی که کاربران توییتر اطلاعات را تولید می‌کنند، افراد نیز بهتر می‌توانند منشأ آن را تشخیص دهند.

چگونه توانایی خود گزارشی برای تشخیص اطلاعات نادرست و اطلاعات تولید شده توسط هوش مصنوعی پس از تکمیل نظرسنجی تغییر می‌کند

در ابتدای نظرسنجی، از پاسخ دهندگان خواستیم تا با استفاده از مقیاس لیکرت ۱ تا ۵ تعریف کنند که تا چه حد به توانایی خود در تشخیص اطلاعات نادرست و توانایی خود در شناسایی متن تولید شده توسط هوش مصنوعی در مقابل متن تولید شده توسط انسان اطمینان دارند. اطمینان به تشخیص اطلاعات نادرست قبل از آزمون بالاتر از اطمینان تشخیص هوش مصنوعی قبل از آزمون بود. پس از نظرسنجی، اما قبل از فاش کردن نتایج، ما یک بار دیگر از پاسخ دهندگان درخواست کردیم تا سطح اعتماد خود را در تشخیص اطلاعات نادرست و متن تولید شده توسط هوش مصنوعی از متن تولید شده توسط انسان نشان دهند. پاسخ دهندگان به توانایی خود در تشخیص اطلاعات نادرست اطمینان بیشتری داشتند، در حالی که آن‌ها به توانایی خود در تشخیص توئیت‌های مصنوعی در مقابل ارگانیک (قبل از بعد از آن) اعتماد کمتری داشتند. افزایش اعتماد به نفس برای شناسایی اطلاعات نادرست ممکن است به نظریه تلقیح اطلاعات نادرست نسبت داده شود، که پیشنهاد می‌کند قرار گرفتن در معرض اطلاعات نادرست با طرز فکر انتقادی می‌تواند توانایی تشخیص و مقاومت در برابر آن را افزایش دهد. در مقابل، کاهش شدید اعتماد به نفس برای شناسایی توئیت‌های مصنوعی می‌تواند به آنچه می‌توانیم آن را «نظریه کناره گیری» بنامیم بستگی دارد، که نشان می‌دهد افراد ممکن است دلسرد شوند و تلاش‌های خود برای ارزیابی انتقادی اطلاعات را کنار بگذارند، به‌ویژه زمانی که با حجم زیادی از اطلاعات مواجه می‌شوند. رمزگشایی از نظر منبع یا هدف آن چالش برانگیز است. این ممکن است منجر به احساس ناامیدی یا بی علاقگی نسبت به مصرف اطلاعات و تمایل به تکیه بر اکتشافات یا نشانه‌های ساده (مانند احساسات برانگیخته شده توسط اطلاعات) شود.

هوش مصنوعی بهتر از انسان‌ها ما را گمراه می‌کند

شکل ۴. پس از نظرسنجی، اطمینان به توان تشخیص اطلاعات غلط افزایش می‌یابد؛ درحالی‌که اطمینان به توان تشخیص محتوای تولیدشده توسط هوش مصنوعی و تشخیص مدل پیشنهادی برای اجرای کارزارهای اطلاع‌رسانی و ارزیابی اطلاعات کاهش می‌یابد.

مباحثه

نحوه برقراری ارتباط و ارزیابی اطلاعات

یافته‌های ما نشان می‌دهد که توییت‌هایی که توسط GPT-3 تولید می‌شوند، بهتر از توییت‌های ارگانیک می‌توانند هم اطلاعات درست و هم اطلاعات نادرست بدهند. توییت‌های مصنوعی حاوی اطلاعات قابل اعتماد به عنوان درست، بهتر و سریع‌تر از توییت‌های ارگانیک واقعی تشخیص داده می‌شوند، در حالی که توییت‌های مصنوعی نادرست به عنوان نادرست بدتر از توییت‌های ارگانیک نادرست شناخته می‌شوند. علاوه بر این، GPT-3 در تشخیص اطلاعات و اطلاعات نادرست بهتر از انسان‌ها عمل نمی‌کند. نتایج نشان می‌دهد که GPT-3 ممکن است در انتقال اطلاعات کارآمدتر باشد، زیرا می‌تواند متنی تولید کند که خواندن و درک آن در مقایسه با متن نوشته شده توسط انسان آسان‌تر باشد. بر اساس این نتایج، ما مدلی را برای ارتباط و ارزیابی کارآمد اطلاعات پیشنهاد می‌کنیم که رویکرد و اجماع فعلی را به چالش می‌کشد، که براساس آن انسان‌ها اطلاعات تولید می‌کنند و هوش مصنوعی در ارزیابی کمک می‌کند. یک کمپین اطلاعاتی مناسب می‌تواند با ارائه دستورالعمل‌های GPT-3 شکل بگیرد، که کمپین‌های اطلاعاتی مؤثری را با هدف قرار دادن انسان‌ها تولید می‌کند (مرحله شروع). سپس دقت اطلاعات توسط انسان‌های آموزش دیده ارزیابی می‌شود. درعوض، کمپین‌های اطلاعاتی نوشته و تهیه‌شده توسط انسان‌ها کمتر مؤثر خواهند بود و هوش مصنوعی ارزیابی ناکارآمدی از صحت و اعتبار اطلاعات را انجام می‌دهد. با توجه به نیاز به برقراری ارتباط سریع و واضح با بخش‌های بزرگی از مردم، مدل پیشنهادی در زمینه بحران بهداشت عمومی و بیماری‌های اطلاعاتی مرتبط است.

«نافرمانی»، مجموعه داده‌های آموزشی، و انتشار خطا

نتایج ما نشان می‌دهد که GPT-3 در صورت درخواست، احتمال کمتری دارد که اطلاعات نادرست در مورد موضوعات خاص مانند واکسن‌ها و اوتیسم ایجاد کند. در واقع یک نمایش آماری از زبان است، برای اینکه چگونه زبان در مجموعه داده‌هایی که آموزش داده شده است استفاده می‌شود، ما فرض می‌کنیم که «نافرمانی» GPT-3 به ترکیب مجموعه داده‌های آموزشی GPT-3 بستگی دارد. اگر مجموعه داده آموزشی حاوی حجم‌هایی از اطلاعات باشد که با آنچه درخواست درخواست می‌کند مغایرت داشته باشد، سیستم احتمالاً آن نوع اطلاعات را تولید خواهد کرد. بنابراین، می‌توانیم نتیجه بگیریم که حجم اطلاعات موجود در مجموعه داده آموزشی که پیوند‌های علّی بین واکسن‌ها و اوتیسم را شناسایی می‌کند، ممکن است بیشتر از حجم تئوری‌های توطئه‌زدایی اطلاعات در مورد موضوعات دیگری باشد که در مطالعه ما در نظر گرفته شده‌اند؛ بنابراین برخی از کنترل‌ها بر روی مواد وارد شده به مجموعه داده‌های آموزشی بسیار مهم است. GPT-3 بر روی داده‌های به‌دست‌آمده از Common Crawl، WebText۲، Books۱، Books۲، و Wikipedia آموزش داده شده است، که همچنین می‌تواند شامل اطلاعات نادرست و اطلاعات نادرست باشد. برای کاهش خطر ایجاد اطلاعات نادرست، ما پیشنهاد می‌کنیم که مبدل‌های متنی آینده باید روی مجموعه داده‌هایی که با اصول دقت و شفافیت تنظیم می‌شوند آموزش ببینند: اطلاعات وارد شده به مجموعه داده‌های آموزشی باید تأیید شود و منشأ آن باید برای بررسی مستقل باز باشد. در نهایت، خروجی مدل‌هایی که بر روی مجموعه داده‌های دقیق و شفاف آموزش دیده‌اند، باید منابع مورد استفاده برای تولید آن را گزارش کند، بنابراین شفافیت را افزایش داده و امکان بررسی مستقل را فراهم می‌کند. با توجه به حجم اطلاعاتی که احتمالاً به عنوان منبع عمل می‌کند، بررسی واقعیت ممکن است هنوز دشوار باشد، اما، با این وجود، اعلام منابع شروع خوبی خواهد بود.

«به عنوان انسان مانند انسان»: شناسایی متن مصنوعی و جعل هویت

مطابق با تحقیقات قبلی، متوجه شدیم که هم پاسخ دهندگان و هم GPT-3 قادر به تشخیص ارگانیک یا مصنوعی بودن یک توییت نیستند. ممکن است بتوان دوره‌های آموزشی خاصی را برای بهبود شناخت انسان از متن مصنوعی، بر اساس نشانگر‌های زبانی، ساختار دستوری و نحو ایجاد کرد. با این حال، به دلیل انتشار ChatGPT (یک رابط تعاملی، محاوره‌ای و حتی ساده‌تر برای GPT-3)، کاربران شروع به جستجوی راه‌هایی برای دور زدن بلوک‌های خط‌مشی محتوای OpenAI کردند. یک استراتژی مؤثر و پرکاربرد، جعل هویت است. وقتی GPT-3 از تولید خروجی که ممکن است خط‌مشی‌های محتوا را نقض کند، خودداری می‌کند، کاربران به سادگی از آن درخواست می‌کنند که شخصیتی را جعل کند، که ظاهراً خط‌مشی‌های محتوا برای آن اعمال نمی‌شوند. با این رویکرد، می‌توان با درخواست از GPT-3 برای ایجاد پروفایل‌های جعلی از افراد به منظور جعل هویت و در تکرار دوم، توئیت‌هایی تولید کرد که این پروفایل‌ها می‌توانند بنویسند، حتی بخش‌های اطلاعات نادرست معتبرتری تولید کرد. این امر علاوه بر دور زدن بلوک‌های خط‌مشی محتوا، حس «شبه انسان» بیشتری به توییت‌ها می‌افزاید و تشخیص مصنوعی آن‌ها را سخت‌تر می‌کند. بر اساس این مقدمات، شناسایی متن مصنوعی ممکن است به زودی نبردی ناامیدکننده برای مردم و هوش مصنوعی باشد.

نظریه کناره‌گیری و اثر دانینگ-کروگر

نتایج ما نشان می‌دهد که انسان‌ها نه تنها نمی‌توانند بین متن مصنوعی و متن ارگانیک تمایز قائل شوند، بلکه اعتماد آن‌ها به توانایی خود در انجام این کار نیز به طور قابل توجهی پس از تلاش برای شناسایی منشاء‌های مختلف آن‌ها کاهش می‌یابد. این کاهش اعتماد به نفس پس از قرار گرفتن در معرض هر دو متون مصنوعی و ارگانیک ممکن است به دلیل درک این موضوع باشد که هیچ نشانگر واضحی وجود ندارد که به کاربران امکان دهد تشخیص دهند که آیا یک متن توسط یک ماشین تولید شده است یا یک انسان. این احتمالاً به دلیل توانایی GPT-3 برای تقلید از سبک‌های نوشتاری و الگو‌های زبانی انسان است. علاوه بر این، پاسخ دهندگان ممکن است در ابتدا توانایی‌های GPT-3 برای نوشتن متنی شبیه انسان را دست کم گرفته باشند: این ممکن است به این دلیل باشد که چنین فناوری جدید و متحول کننده است و مردم هنوز به قدرت آن عادت نکرده اند. ما از این پدیده به عنوان نظریه کناره گیری یاد می‌کنیم. ما پیشنهاد می‌کنیم که وقتی افراد با حجم زیادی از اطلاعات مواجه می‌شوند، ممکن است احساس غرق شدن کنند و از تلاش برای ارزیابی انتقادی آن دست بکشند. در نتیجه، آن‌ها ممکن است کمتر تلاش کنند بین توییت‌های مصنوعی و ارگانیک تمایز قائل شوند، که منجر به کاهش اعتماد به نفس آن‌ها در شناسایی توییت‌های مصنوعی می‌شود. تفسیر احتمالی دیگر این است که این نظرسنجی ممکن است شرکت‌کنندگان را از پتانسیل GPT-3 برای تولید اطلاعات نادرست با احساسی شبیه انسان آگاه کرده باشد، و آن‌ها را نسبت به اطلاعات مصنوعی و ارگانیک بیشتر بدبین کرده است، بنابراین اعتماد آن‌ها به توانایی آن‌ها برای شناسایی متن ارگانیک کاهش می‌یابد.

یک دیدگاه جایگزین نیز توسط اثر دانینگ-کروگر ارائه شده است که می‌تواند به تفسیر یافته‌های ما نیز کمک کند. این تئوری نشان می‌دهد که باور یک فرد به توانایی آن‌ها برای انجام موفقیت آمیز یک کار می‌تواند بر عملکرد آن‌ها تأثیر بگذارد. به طور گسترده‌ای تشخیص داده شده است که افراد تمایل دارند شایستگی درک شده خود را در مهارت‌های سواد اطلاعاتی بیش از حد برآورد کنند، که می‌تواند منجر به کاهش متناظر در انگیزه در مواجهه با چالش واقعی شود، زیرا آن‌ها متوجه می‌شوند که عملکرد واقعی آن‌ها کمتر از انتظارات قبلی آن‌ها است.

در مورد مطالعه ما، اعتماد شرکت کنندگان به توانایی آن‌ها در تمایز بین متن مصنوعی و ارگانیک پس از قرار گرفتن در معرض این متون کاهش یافت. بنابراین، این کاهش اعتماد به نفس در طول ارزیابی ممکن است بر توانایی آن‌ها در تشخیص دقیق بین دو نوع متن در تلاش‌های بعدی تأثیر منفی بگذارد و دشواری تمایز بین متن مصنوعی و ارگانیک را تشدید کند. با این حال، از آنجایی که برخی اختلاف نظر‌ها در مورد قابلیت تعمیم اثر دانینگ-کروگر به مصنوعات آماری وجود دارد، ما همچنان نظریه کناره گیری خود را به عنوان تفسیری ارجح از پدیده مشاهده شده در داده‌ها در نظر می‌گیریم.

فراتر از توییتر

ما تصمیم گرفتیم مطالعه خود را به دلایل زیر بر روی توییت‌ها متمرکز کنیم: توییتر در حال حاضر توسط بیش از ۳۶۸ میلیون کاربر فعال ماهانه برای مصرف اخبار و اطلاعات سیاسی استفاده می‌شود که چندین بار در روز از این پلت فرم استفاده می‌کنند. علاوه بر این، توییتر یک رابط برنامه نویسی کاربردی بسیار ساده برای توسعه ربات‌ها ارائه می‌دهد، به عنوان مثال، برنامه‌هایی که قادر به ارسال محتوا و تعامل با پست‌ها یا کاربران بدون نظارت انسان هستند. تحقیقات اخیر نشان می‌دهد که تنها حدود ۵ درصد از کاربران توییتر ربات هستند، اما این ربات‌ها به طور تجمعی ۲۰ تا ۲۹ درصد از محتوای ارسال شده در توییتر را تشکیل می‌دهند. به دلیل این ویژگی‌ها، توییتر هدف ایده‌آل و به طور بالقوه بسیار آسیب‌پذیری، برای بخش‌هایی از اطلاعات نادرست تولید شده توسط هوش مصنوعی است. به طور کلی، یافته‌های ما سؤالات مهمی را در مورد استفاده‌های بالقوه و سوء استفاده‌های GPT-3 و دیگر تولیدکنندگان متن پیشرفته هوش مصنوعی و پیامد‌های انتشار اطلاعات در عصر دیجیتال، به‌ویژه در رابطه با گسترش اطلاعات نادرست، به‌ویژه در رسانه‌های اجتماعی، مطرح می‌کند. توجه داشته باشید که در حالی که در این مطالعه روی توییت‌ها تمرکز کردیم، نتایج ما می‌تواند به دیگر پلتفرم‌های رسانه‌های اجتماعی و سایر اشکال ارتباطی که می‌توانند توسط ربات‌ها از طریق API استفاده شوند و می‌توانند برای انتشار برنامه‌ای اطلاعات نادرست تولید شده توسط هوش مصنوعی مورد سوء استفاده قرار گیرند، گسترش یابد. ما پست‌های توئیت‌مانندی در رسانه‌های اجتماعی ایجاد کردیم که آن‌ها را توییت می‌نامیم، اما دارای ویژگی‌های مشترک با انواع دیگر پست‌های رسانه‌های اجتماعی، مانند پست‌های اینستاگرام یا فیس‌بوک هستند.

انقلاب بزرگ

ما پیش‌بینی می‌کنیم که تولیدکننده‌های متنی پیشرفته هوش مصنوعی مانند GPT-3 می‌توانند تأثیر زیادی بر انتشار اطلاعات، چه به صورت مثبت و چه منفی داشته باشند. همانطور که نتایج ما نشان داد، مدل‌های زبان بزرگی که در حال حاضر در دسترس هستند می‌توانند متنی را تولید کنند که از متن ارگانیک قابل تشخیص نیست. بنابراین، ظهور مدل‌های زبانی قدرتمندتر و تأثیر آن‌ها باید پایش شود. در ماه‌های آتی، ارزیابی چگونگی تغییر چشم‌انداز اطلاعات در رسانه‌های اجتماعی و سنتی با استفاده گسترده از ChatGPT از نوامبر ۲۰۲۲ بسیار مهم خواهد بود. اگر مشخص شود که این فناوری به اطلاعات نادرست و بدتر شدن مسائل بهداشت عمومی کمک می‌کند، آنگاه قانون‌گذاری مجموعه داده‌های آموزشی مورد استفاده برای توسعه این فناوری‌ها برای محدود کردن استفاده نادرست و اطمینان از اطلاعات خروجی شفاف و واقعی بسیار مهم است. به‌علاوه، تا زمانی که استراتژی‌های کارآمدی برای شناسایی اطلاعات نادرست نداشته باشیم (چه بر اساس مهارت‌های انسانی و چه بر اساس پیشرفت‌های هوش مصنوعی آینده)، ممکن است لازم باشد استفاده از این فناوری‌ها را محدود کنیم، به‌عنوان مثال، مجوز آن‌ها را فقط برای کاربران مورد اعتماد (مثلاً محققان) اعطا کنیم یا پتانسیل هوش مصنوعی به انواع خاصی از برنامه‌ها محدود کنیم. در نهایت، بسیار مهم است که ما همچنان به ارزیابی انتقادی پیامد‌های این فناوری‌ها و اقداماتی برای کاهش هر گونه اثرات منفی که ممکن است بر جامعه داشته باشند، ادامه دهیم.

محدودیت‌ها

حال که یافته‌های مطالعه را ذکر کردیم، محدودیت‌های آن را هم خاطرنشان می‌کنیم. یکی از محدودیت‌های بالقوه استفاده از حجم نمونه نسبتاً بزرگ است که منجر به تفاوت‌های کوچک بین گروه‌ها شده است. بنابراین، هنگام تفسیر اهمیت نتایج، به ویژه هنگام در نظر گرفتن اندازه اثر، باید احتیاط کرد. گفتنی است، با وجود این محدودیت، ما معتقدیم که تفاوت‌های کوچکی که بین متون هوش مصنوعی و ساخت بشر از نظر اثربخشی آن‌ها در ارتباطات یافت می‌شود، معنادار است. با وجود تعداد زیادی قطعه اطلاعاتی، هم از نظر انتشار اطلاعات درست و هم انتشار اطلاعات نادرست، حتی تفاوت‌های کوچک در اثربخشی می‌تواند تأثیر قابل توجهی بر سلامت عمومی داشته باشد، علاوه بر این، تأثیر بالقوه این تفاوت‌ها می‌تواند با پیشرفت‌های جدید هوش مصنوعی مانند GPT-۴ یا دیگر مدل‌های زبان بزرگ‌تر، تشدید شود. این عوامل و دیگر عوامل ممکن است بر دقت تشخیص اطلاعات نادرست تأثیر بگذارند. مطالعات آینده می‌تواند تشخیص اطلاعات نادرست را در یک محیط طبیعی‌تر، با در نظر گرفتن عوامل زمینه‌ای که ممکن است بر شناخت اطلاعات نادرست در پلتفرم‌های رسانه‌های اجتماعی تأثیر بگذارد، بررسی کند. علاوه بر این، مطالعه ما بر روی کاربران انگلیسی زبان فیس بوک متمرکز شد. مطالعات آتی می‌تواند شناخت اطلاعات نادرست را در مناطق، فرهنگ‌ها یا گروه‌های اجتماعی جمعیت‌شناختی مختلف بررسی کند تا مشخص کند که هوش مصنوعی چگونه بر درک اطلاعات در میان مردم هدف خاص تأثیر می‌گذارد. مطالعه ما توییت‌های مصنوعی را با توییت‌های ارگانیک تصادفی، که توسط کاربران تصادفی نوشته شده بود، مواجه کرد. مطالعات آینده، به جای مقایسه توییت‌های مصنوعی با توییت‌های ارگانیک تصادفی، می‌توانند توییت‌های مصنوعی را با توییت‌های ارگانیک نوشته‌شده توسط مؤسسات بهداشت عمومی شناخته‌شده مقایسه کنند تا روشن شود که آیا یافته‌های ما درباره سریع‌تر و آسان‌تر درک اطلاعات مصنوعی حتی در این مورد درست است یا خیر. به عنوان نکته پایانی، در این مطالعه، ما فرض کردیم که توییت‌های بازیابی شده ارگانیک بدون استفاده از ابزار‌های هوش مصنوعی تولید شده‌اند، اگرچه این احتمال وجود دارد که بخش کوچکی از توییت‌های تحلیل‌شده واقعاً به‌صورت مصنوعی تولید شده باشند.

محتوا و روش‌ها

قبل از شروع جمع‌آوری داده‌ها، پروتکل این مطالعه را ثبت کردیم. پیش نویس در OSF موجود است: https://doi.org/10.17605/OSF.IO/HV6ZY.

تعریف موضوعات

به عنوان مقولات این مطالعه، ما ۱۱ موضوع را شناسایی کردیم که در مورد آن‌ها اطلاعات نادرست وجود دارد. این لیست شامل موارد زیر بود:

۱. تغییر اقلیم

۲. ایمنی واکسن

۳. نظریه تکامل

۴. کووید-۱۹

۵. ایمنی ماسک

۶. واکسن و اوتیسم

۷. درمان‌های هومیوپاتی برای سرطان

۸. زمین مسطح

۹. فناوری 5G و COVID-۱۹

۱۰. آنتی بیوتیک‌ها و عفونت‌های ویروسی

۱۱. کووید-۱۹ = آنفولانزا

تعاریف

در سرتاسر مقاله، توئیت‌های «درست» و «نادرست» را می‌پذیریم و گاهی برای وضوح بیشتر توضیح می‌دهیم. توییت‌های واقعی توییت‌هایی هستند که حاوی اطلاعات درست هستند و توییت‌های نادرست آن‌هایی هستند که حاوی اطلاعات نادرست، هستند.

در مورد تعریف اطلاعات درست و اطلاعات نادرست، ما بر اساس دانش علمی و درک فعلی موضوعات و اطلاعات مورد بررسی قرار می‌گیریم. برای جلوگیری از موارد مشکوک و قابل بحث که ممکن است منوط به نظرات و تفسیر‌های شخصی باشد، فقط توییت‌هایی را که حاوی اطلاعات قابل طبقه بندی به عنوان درست یا نادرست هستند، تجزیه و تحلیل و به پرسشنامه خود اضافه کردیم. قابل ذکر است، اگر توییتی حاوی اطلاعات تا حدی نادرست باشد، به این معنی که حاوی بیش از یک قطعه اطلاعات و حداقل یکی نادرست باشد، آن را نادرست فرض می‌کنیم. همانطور که در مقدمه بحث شد، ما اذعان داریم که تعریف اطلاعات نادرست و اطلاعات نادرست متنوع است، اما به تعریفی فراگیر اشاره می‌کنیم که اطلاعات نادرست (همچنین اطلاعات تا حدی نادرست) و/یا محتوای گمراه کننده را در نظر می‌گیرد.

بازیابی توییت‌های ارگانیک

با استفاده از جستجوی پیشرفته توییتر، نمونه‌ای تصادفی از توییت‌های ارگانیک اخیر در مورد موضوعات ذکر شده در بالا، از جمله توییت‌های درست و نادرست، جمع‌آوری کردیم.

ارزیابی تخصصی توییت‌های مصنوعی و ارگانیک

ما توییت‌های مصنوعی و ارگانیک را ارزیابی کردیم تا بررسی کنیم که آیا آن‌ها حاوی اطلاعات نادرست هستند یا خیر.

انتخاب توییت‌هایی که در نظرسنجی گنجانده می‌شوند و تولید تصاویر توییت

پس از ارزیابی‌هایمان همانطور که قبلاً توضیح داده شد، ما توییت‌های زیر را برای هر دسته انتخاب کردیم: پنج توییت با برچسب مصنوعی نادرست، پنج توییت با برچسب مصنوعی درست، پنج توییت با برچسب نادرست ارگانیک و پنج توییت با برچسب ارگانیک درست. نهایتاً این منجر به یک مجموعه داده از ۲۲۰ توییت شد که برای تولید تصاویر توییت‌ها استفاده می‌شد.

برنامه‌ریزی نظرسنجی

ما یک نظرسنجی را برای جمع‌آوری اطلاعات جمعیتی، نمایش توییت‌ها برای پاسخ‌دهندگان و جمع‌آوری ارزیابی‌های آن‌ها (درست در مقابل نادرست و ارگانیک در مقابل مصنوعی) برنامه‌ریزی کردیم. برای هر توییت، پاسخ دهندگان موارد زیر را ارزیابی کردند:

۱. اینکه آیا درست است یا اینکه حاوی اطلاعات نادرست است (تک انتخاب، درست / اطلاعات غلط).

۲. توسط یک شخص واقعی نوشته شده است یا توسط یک هوش مصنوعی (تک انتخاب، شخص واقعی/هوش مصنوعی)

علاوه بر این، پاسخ دهندگان موارد زیر را ارائه کردند:

۱. برخی اطلاعات جمعیت شناختی (ملیت، سن، جنس، سطح تحصیلات و رشته تحصیلی).

۲. توانایی درک خود (قبل و بعد از نظرسنجی) در تشخیص اطلاعات نادرست و متن مصنوعی (مقیاس لیکرت: ۱، بسیار دشوار تا ۵، بسیار آسان).

تصاویر توییت‌ها در تصادفی ساز‌های تودرتو در ساختار نظرسنجی سازماندهی شده‌اند:

۱. تصادفی ساز سطح اول ترتیب دسته بندی را تصادفی می‌کند (به عنوان مثال، تغییرات آب و هوا و غیره). همه دسته‌ها برای هر پاسخ دهنده نمایش داده می‌شود.

۲. تصادفی ساز‌های سطح دوم (برای هر دسته) یک توییت نمایش داده شده برای هر دسته را به صورت تصادفی برای پاسخ دهنده تنظیم می‌کنند. هر دسته شامل ۲۰ توییت است: ۵ توییت غلط مصنوعی، ۵ توئیت درست مصنوعی، ۵ توئیت نادرست ارگانیک و ۵ توییت و درست ارگانیک. تصادفی ساز‌های سطح دوم به طور مساوی یک توییت از مجموعه ۲۰ توییت را ارائه می‌دهند.

این نظرسنجی یک رویکرد بازی‌سازی شده را برای درگیر نگه‌داشتن پاسخ‌دهندگان اتخاذ می‌کند: در ابتدای نظرسنجی، به پاسخ‌دهندگان گفته می‌شود که پس از تکمیل نظرسنجی، امتیاز خود را برای هر دو مقیاس (تشخیص اطلاعات نادرست و تشخیص متن مصنوعی) به دست خواهند آورد. این امر باعث شد نرخ ترک نظرسنجی پایین باشد. امتیازدهی در نظرسنجی با استفاده از تابع «امتیاز» به دست می‌آید.

تست آزمایشی و تعریف اندازه نمونه

ما این بررسی را در دو مرحله آزمایشی آزمایش کردیم. در مرحله اول، ما پیوند را به یک نمونه راحت با هدف آزمایش قابلیت استفاده و طرح‌بندی منتشر کردیم. در مرحله دوم، ما پیوند را از طریق یک کمپین تبلیغاتی فیس بوک منتشر کردیم.

جمع آوری داده

ما این نظرسنجی را از طریق کمپین‌های مختلف تبلیغاتی فیس‌بوک منتشر کردیم تا برخی از عدم تعادل‌های جمعیتی را که از داده‌های آزمایشی (تعداد بیش از حد زنان و نمایندگی کمتر از افراد ۱۸ تا ۵۴ ساله) به آن اشاره کردیم، جبران کنیم. این کمپین‌ها در اکتبر و نوامبر ۲۰۲۲ انجام شد.

هدف استراتژی ما ثبت جمعیتی از کاربران فعال رسانه‌های اجتماعی با استفاده از پلت فرم رسانه‌های اجتماعی بود.

تحلیل و بررسی

امتیازدهی و تجزیه و تحلیل در پایتون با استفاده از یک نوت بوک Jupyter پیاده سازی شده است. کد‌های نتایج بررسی Qualtrics ما را به عنوان ورودی می‌گیرد و فایل‌های مورد نیاز برای تجزیه و تحلیل را به عنوان خروجی تولید می‌کند.

تصفیه داده‌ها

برای اطمینان از کیفیت داده‌ها، پاسخ‌های ناقص، پاسخ‌های ایجاد شده از پیوند‌های پیش‌نمایش، و آن‌هایی که در کمتر از ۱۷۰.۵ ثانیه ارسال شدند، در طول پاک‌سازی داده‌ها حذف شدند. این چارچوب زمانی به صورت تجربی به عنوان حداقل زمان مورد نیاز برای تکمیل نظرسنجی تعیین شد که به عنوان میانگین زمان صرف شده توسط یک نمونه راحت برای خواندن و پاسخ دادن به سؤالات با ریتم پایدار محاسبه شد.