چگونه با استفاده از آمار دروغ بگوییم/ آمار قدرتمندترین علم و ابزار برای تحریف واقعیت
سوء استفاده از آمار یکی از قدرتمندترین ابزار برای دروغ گفتن است. برای شناسایی دروغهای آماری بهتر است با نحوه دستکاری اعداد و ارقام آشنا شویم. به این منظور سعی میکنیم نشان دهیم که آمارها چگونه میتوانند هر ایده اشتباهی که دارید را پشتیبانی کنند.
قدم اول آمارسازی شناسایی موضوع مورد تحلیل است که متخصصین آمار از آن به جمعیت یاد میکنند. سپس یک زیرمجموعه ایجاد میکنید که بعد از تحلیل باید نماینده کل جمعیت آماری باشد. هر چه این نمونه بزرگتر و دقیقتر باشد نتیجه شما دقیقتر خواهد بود. چندین راه برای مخدوش کردن این نمونه آماری به صورت عمدی و تصادفی وجود دارد. اگر نمونه دادهای که جمعآوری کردهاید بد است به هر حال نتایج اشتباه خواهید گرفت. راههای زیادی برای مخدوش کردن داده هست اما این چند راه مهمترین آنهاست: سوگیری انتخاب خود: این نوع از سوگیری زمانی اتفاق میافتد که افراد و یا دادههایی که مطالعه میکنید به طور داوطلبانه در گروهی قرار بگیرند که نماینده کل جمعیت آماری نیست. برای مثال زمانی که از خوانندگان خود میپرسیم که برنامه پیامک دهی محبوب شما چیست، تنها پاسخهایی را دریافت میکنیم که خوانندگانمان به ما ارائه میدهند. نتیجه یک نظرسنجی غیررسمی مانند این نماینده کل جمعیت نیست زیرا خوانندگان ما باهوشتر، شادابتر و جذابتر از میانگین افراد هستند. نمونهگیری آسان: این سوگیری زمانی رخ میدهد که یک پژوهش تمام دادههای موجود را تحلیل میکند و به سراغ یافتن دادههای دیگر نمیرود. برای مثال، یک شبکه تلویزیونی ممکن است از بینندگان خود درباره نامزد سیاسی نظرسنجی کند. بدون نظرسنجی کردن از بینندگان دیگر شبکههای تلویزیونی غیر ممکن است که نتایج نظرسنجی واقعیت را نشان دهد. سوگیری بدون پاسخ: این سوگیری زمانی رخ میدهد که برخی افراد در گروه پاسخدهندگان پاسخی نمیدهند و باعث میشود پاسخها تغییر کند. برای مثال، اگر پژوهشی در مورد فعالیت جنسی افراد باشد و سوالی بپرسد که نخواهند جواب دهند باعث میشود نتیجه با واقعیت فاصله داشته باشد. نظرسنجیهای دسترسی آزاد: این نوع نظرسنجیها اجازه میدهد که هر کسی به آن پاسخ دهد و در بسیاری از موارد بررسی نمیشود که فرد، تنها یک بار رای دهد. این نظرسنجیها با این که متداول هستند اما سوگیری دارند زیرا سعی نمیکنند که ورودی را کنترل کنند. برای مثال، نظرسنجیهای آنلاین که از شما میخواهند گزینه مورد نظر را کلیک کنید در این دسته بندی هستند. این نظرسنجیها برای اثبات بیطرفانه یک موضوع خوب نیستند. راههای بسیار زیادی وجود دارد که یک نمونه میتواند سوگیری داشته باشد. اگر میخواهید به نتیجه مورد نظر برسید کافی است یکی از این راهها را انتخاب کنید. برای مثال، نظرسنجیهای با دسترسی باز در وبسایتها میتوانند برای اثبات برنده شدن یک نامزد پس از مناظره به کار آیند. زیبایی سوگیری نمونهگیری این است که فردی در یک جایی میتواند یک نظرسنجی غیرعلمی برگزار کند که هر چیزی که میخواهید را بیان کند.
برای نشان دادن مشکلات تحلیل داده، فرنسیس انسکومب چهاربخشی با نام خود را ایجاد کرد (در تصویر بالا). این چاربخشی شامل چهار نمودار است که روندهای بسیار متفاوتی را نشان میدهند. جدول X1 دادههای گسترده متمایل به سمت بالا را نشان میدهد. جدول X2 روندی خمیده را نشان میدهد که بالا میرفته اما در آخر به پایین میرود. جدول X3 روند کوچکتری به سمت بالا نشان میدهد اما یک داده در محور عمودی بالا رفته است. جدول X4 دادهای را نشان میدهد که در محور افقی کاملا یکسان است و تنها یک داده در هر دو محور بسیار بالا است. قسمت جالب ماجرا اینجاست که گزارههای زیر برای همه جدولها صحیح است: داده میانگین محور افقی برای هر گروه داده ۹ است داده میانگین محور عمودی برای هر گروه داده ۷.۵ است متغیر محور افقی ۱۱ و متغیر محور عمودی ۴.۱۲ است همبستگی بین محور افقی و عمودی برای هر گروه داده ۰.۸۱۶ است اگر این دادهها را به شکل متن میدیدید ممکن بود فکر کنید تمامشان یکی است. برای مثال، چارتی مانند X1 که درآمد افراد در شرکت شما در طول چند سال را نشان میدهد و X2 درآمد زنان در همان دوره نشان میدهد. اگر تنها متن را نشان دهید میبینید که هر دو حقوق میانگین یکسانی دارند. هر چند اگر نمودار را ببینید متوجه میشوید که حقوق زنان به دلایلی کاهش داشته است. این تحلیلگر آمار میگوید برای جلوگیری از گمراهی افراد، همیشه باید قبل از رسیدن به نتیجه دادهها را تصور کنید و به دادههای پرت دقت کنید. اما اگر هدف شما گمراه کردن مردم است میتوانید این قسمت را نادیده بگیرید.
بسیاری از افراد وقت تحلیل دادهای ندارند پس به آمارگیران اعتماد میکنند که با جدول نتیجهها را نشان میدهند. اگر جداول خود را به درستی طراحی کنید باید واقعیت را نشان دهند اما اگر بخواهید نتیجه خود را نشان دهید میتوانید طوری بکشید که داده مورد نظر شما به دست آید.
هر چقدر منابع شما شفافتر باشد، راحتتر میتوان نتایج را بررسی و یا رد کرد. اگر نتایج شما را میتوان بررسی کرد پس بگذارید مردم دادههای شما را مشاهده کنند. هر چند اگر هدف شما گمراه کردن مردم است هرگز اجازه ندهید متوجه شوند چگونه به این نتیجه رسیدید. سایتهای خبری باید لینک پژوهشهایی که از آن نقل میکنند را در متن خبر قرار دهند. پژوهشگران ممکن است تمام دادههای خود را نشان ندهند اما منبع پژوهش باید چند سوال ابتدایی را پاسخ دهد: اطلاعات چگونه جمع آوری شده است؟ آیا با افراد تماس گرفتهاید؟ آیا در بیرون مرکز خرید از آنان پرسیدهاید؟ آیا نظرسنجی توییتری بوده؟ روشی که برای جمع آوری داده استفاده کردهاید ممکن است سوگیری نمونهگیری را نشان دهد. این داده چه زمانی جمع آوری شده است؟ چه زمانی این دادهها را جمع آوری کردهاید و چقدر طول کشید؟ گزارشات میتوانند به سرعت قدیمی شده و روندها در طول زمان تغییر میکنند. ذکر کردن بازه زمانی که داده در آن جمع آوری شده میتواند درجه اعتماد آن را مشخص کند. چه کسی این اطلاعات را جمع آوری کرده است؟ شخص یا گروهی که دادهها را جمع آوری کرده میتواند مشخص کند که به داده اعتماد کنیم یا خیر. پژوهش یک شرکت تنباکو که نشان میدهد سیگار کشیدن سالم است صحیح نیست مگر شخص سومی صحت آن را بررسی کند. از چه کسی پرسیده شده است؟ به ویژه در نظرسنجیها باید بدانیم که از چه کسی سوال شده است. اگر یک سیاستمدار تنها از کسانی که با او همسو هستند نظرسنجی کند دادهای به دست میآید که نماینده کل جامعه نیست. ذکر منبع به دیگران این اختیار را میدهد که ادعاهای شما را بررسی کنند. دقیقترین آمارها آنهایی هستند که دیگران میتوانند روند را ببینند و پژوهش خود را انجام دهند. هر چند اگر هدف شما گمراه کردن خود و دیگران است نیازی به شفافسازی منابع ندارید. در واقع بهترین دفاع شما این است که بگویید بروید و بررسی کنید! هیچ کس نمیتواند با این منطق مخالفت کند.