ناسازگاری‌ آماری در نظرسنجی آی‌پُز

به گزارش گرداب، روز ۲۷ خرداد ۱۳۹۴، مؤسسۀ آی‌پُز نتایج یک نظرسنجی با عنوان «میراث جنبش سبز و ارزیابی مردم» را منتشر کرد تا «میزان درگیری ذهنی و عینی مردم با این حوادث» و «ارزیابی آنان از این حوادث» را نشان دهد. با اشارۀ یکی از دوستان، متوجه شدم که یافته‌های گزارش‌شده در این نظرسنجی گویا ناسازگاری‌های آماری جدی دارد به این معنا که بعید است یافته‌های گزارش‌شده، حاصل تحلیل آماری یک مجموعۀ دادۀ واقعی (یا حتی ساختگی) باشند بلکه صرفاً نمودارها و درصدهای نهایی حسب سلیقۀ مؤلف طراحی و ارائه شده‌اند.

برای رعایت اصول حرفه‌ای و دریافت توضیحات احتمالی، در تاریخ ۳۱ خرداد ۱۳۹۴ از طریق ایمیل به مؤسسه اطلاع دادم ناسازگاری‌هایی مشاهده کرده‌ام که قصد گزارش آنها را دارم اما شاید در اثر محاسبات نادقیق روی مجموعه‌ای از داده‌های معتبر باشند، و تقاضای دریافت توضیحات و سپس داده‌های خام بی‌نام را کردم. مؤسسه به ایمیل من پاسخی نداد و من هم پی‌گیر طرح عمومی آن موارد مشکوک نشدم.

با انتشار گزارش هر نظرسنجی، علاقمندان پرسش‌های متعددی دربارۀ شیوۀ جمع‌آوری و تحلیل داده‌ها مطرح می‌کنند که عموماً بی‌پاسخ می‌مانند. اکنون که دوباره ماجرای نظرسنجی‌های تلفنی این مؤسسه داغ شده است، موارد مشکوک آن گزارش را هم می‌نویسم تا به مجموعۀ پرسش‌های فعلاً بی‌پاسخ اضافه شوند.

برای روشن شدن ناسازگاری‌های آن گزارش، ابتدا یک نکتۀ آماری را با مثال توضیح می‌دهم.
فرض کنید از تعدادی پسر و دختر پرسیده‌اید «آیا گزارۀ الف صحیح است؟» در پاسخ، درصدی از دختران (f)، درصدی از پسران (m) و درصدی از کل افراد (n) جواب مثبت داده‌اند. به سادگی می‌توان نشان داد که درصد کل باید بین دو مقدار درصد دختران و درصد پسرانی باشد که پاسخ‌شان مثبت بوده است، یعنی خارج از این بازه نمی‌تواند باشد. یا به عبارت

ریاضی: یعنی اگر مثلاً ۱۰% از دختران و ۳۰% از پسران پاسخ مثبت داده باشند، درصد کل کسانی که پاسخ مثبت داده‌اند باید بین دو رقم ۱۰ و ۳۰ باشد.
همچنین، اگر درصد کل بسیار نزدیک به یکی از دو درصد جنسیتی باشد، به معنای آن است که تعداد آن جنسیت در کل نمونه بسیار زیادتر از جنسیت دیگر بوده است. یعنی اگر مثلاً ۱۰% از دختران و ۳۰% از پسران پاسخ مثبت داده باشند و درصد کل پاسخ‌های مثبت هم ۱۱% باشد، می‌توان نتیجه گرفت که تعداد دختران بسیار بیشتر از پسران بوده است.
اگر دسته‌بندی پاسخ‌گویان شامل بیش از دو دسته باشد نیز نکات بالا صادق‌اند. با این مقدمه، به تعدادی از ناسازگاری‌های آماری آن گزارش اشاره می‌کنم.

نمونۀ اول: باور به تقلب بر اساس شاخص توسعۀ انسانی محل سکونت

بنا به این گزارش، در تفکیک پاسخ‌گویان بر اساس شاخص توسعۀ انسانی محل سکونت، بین ۱۰ تا ۱۵ درصد از آنها در مناطق حائز شاخص‌های بالا، متوسط و پایین توسعۀ انسانی، به تقلب باور داشته‌اند. لذا درصد کلی کسانی که به تقلب باور داشته‌اند نمی‌تواند خارج از بازۀ ۱۰ تا ۱۵ باشد. اما این گزارش می‌گوید ۱۹% از کل پاسخ‌گویان به تقلب در انتخابات ۸۸ باور داشته‌اند.

نمونۀ دوم: ارزیابی نحوۀ برخورد با معترضان بر اساس محل سکونت

بنا به این گزارش، در تفکیک پاسخ‌گویان بر اساس محل سکونت، بین ۴۳ تا ۵۹ درصد از آنها در مناطق شهری و روستایی برخوردها را درست، بین ۲۱ تا ۳۰ درصد از آنها نادرست، و بین ۲۰ تا ۲۷ درصد از آنها پاسخ «نمی‌دانم/سایر» را انتخاب کرده‌اند. لذا درصد کلی کسانی که برخوردها را درست می‌دانسته‌اند باید در بازۀ ۴۳ تا ۵۹، درصد کلی کسانی که برخوردها را نادرست می‌دانسته‌اند باید در بازۀ ۲۱ تا ۳۰، و درصد کلی کسانی که سایر گزینه‌ها را انتخاب کرده‌اند باید در بازۀ ۲۰ تا ۲۷ باشد. اما درصدهای کلی ۴۰ و ۳۵ برای پاسخ‌های درست و نادرست در بازه‌های متعلق به خود قرار ندارند.

نمونۀ سوم: سطح تحصیلات پاسخ‌گویان
یک ناسازگاری دیگر به نسبت افراد با تحصیلات مختلف بازمی‌گردد. بنا به بخشی از گزارش که میزان باور پاسخ‌گویان به تقلب را سنجیده است، برای هر پاسخ، درصد کل کسانی که آن را انتخاب کرده‌اند به درصد افراد «دیپلم و کمتر» نزدیک‌تر است (و در یک مورد، یعنی پاسخ نمی‌دانم/سایر، درصد کل یعنی ۲۲ مساوی درصد افراد دارای مدرک دیپلم و کمتر است) که نشان می‌دهد تعداد افراد دارای مدرک دیپلم و کمتر در کل پاسخ‌دهندگان بیشتر از افراد داری تحصیلات عالیه است. در بخشی که ماهیت اجتماعی معترضان بر اساس سطح تحصیلات را سنجیده است نیز با پخش وزن دو گزینۀ «نمی‌دانم/سایر» روی مابقی گزینه‌ها، به همین نتیجه می‌رسیم که تعداد افراد دارای مدرک دیپلم و کمتر از آن در کل پاسخ‌دهندگان بیشتر از افراد داری تحصیلات عالیه است.

ولی در بخش «ارزیابی نحوۀ برخورد با معترضان بر اساس سطح تحصیلات»، یک مشکل خودنمایی می‌کند.درصد کلی پاسخ‌گویانی که گزینۀ «نمی‌دانم/سایر» را برای توصیف برخوردها با معترضان انتخاب کرده‌اند، ۲۵% است که به درصد انتخاب این گزینه توسط افراد داری مدرک دیپلم و کمتر نزدیک‌تر است و باز هم نشان می‌دهد که تعداد این افراد در کل پاسخ‌دهندگان بیشتر بوده است.
اما بررسی انتخاب‌کنندگان دو پاسخ دیگر، نتیجۀ دیگری به دست می‌دهد: درصد کل پاسخ‌گویانی که برخوردها با معترضان را «درست»پ دانسته‌اند ۴۰% است که بیشتر از درصد مربوط به افراد «فوق‌لیسانس و دکتری» و کمتر از افراد «فوق‌دیپلم و لیسانس» یا «دیپلم و کمتر» است. به همین ترتیب، درصد کل پاسخ‌گویانی که برخوردها با معترضان را «نادرست» قلمداد کرده‌اند نیز ۳۵% است که به رقم تحصیلات «فوق‌لیسانس و دکتری» نزدیکتر از دو دستۀ تحصیلاتی دیگر است. لذا نتیجه‌گیری منطقی از این دو قسمت آن است که در کل پاسخ‌دهندگان، تعداد افرادی دارای تحصیلات عالیه بیشتر بوده است که با آمارهای سایر بخش‌ها هم‌خوانی ندارد.

جمع‌بندی
نمونه‌های فوق (و برخی موارد مشابه در آن نظرسنجی)، حکم قطعی به بی‌اعتباری آماری این گزارش نمی‌دهند اما تردیدهایی جدی ایجاد می‌کنند که پاسخ دقیق و فنی دست‌اندرکاران مؤسسه را می‌طلبند.