پرش به محتوای اصلی

وقتی می‌پرسیم «چطور می‌شود احتمال وقوع را به‌صورت دقیق محاسبه کرد؟ » درواقع داریم دنبال راهی هستیم که از حدس و گمان فراتر برود و عددی قابل تکیه بدهد.

احتمال وقوع یعنی چه؟ به طور ساده یعنی چه نسبتی از بارها یا سناریوها انتظار داریم آن رویداد رخ بدهد، و برای محاسبه‌ی دقیق لازم است که هم مدل درست انتخاب کنیم و هم عدم قطعیت را کم و قابل اندازه‌گیری کنیم. چرا مهمه؟

اولین گام مشخص کردن پرسش دقیق است. مثالِ ساده: «احتمال اینکه در یک پرتاب سکه رو بیاید چقدره؟ » اینجا فضای نمونه مشخص و محدود است؛ اما در مسائل واقعی مثل «احتمال وقوع سیل در یک شهر طی ده سال آینده» باید تعریف دقیق‌تری از رویداد، بازه‌ی زمانی و شرایط مرزی داشته باشیم.

بدون این تعریف‌ها، محاسبات عددی ارزش چندانی ندارند. از کجا شروع کنم قدم بعدی انتخاب مدل است.

اگر با یک آزمایش تکرارشونده و مستقل روبه‌رو هستید، مدل ساده فرکانسی کار می‌کند: احتمال را می‌توانید به‌صورت نسبت تعداد موفقیت‌ها به تعداد آزمایش‌ها تخمین بزنید (P تعداد موفقیت N). این همان رویکرد رونده (frequentist) است که در بازی‌های شطرنج یا پرتاب سکه خوب جواب می‌دهد. اما وقتی داده کم است یا اطلاعات قبلی داریم، رویکرد بیزی (Bayesian) منطقی‌تر است: احتمال اولیه (پریور) را می‌گذاریم و با مشاهده‌ی داده‌ها آن را به‌روزرسانی می‌کنیم.

فرمول ساده بیز می‌گوید P(فرض داده) P(داده فرض) P(فرض) P(داده) که در خیلی از مسائل عملی برای محاسبه‌ی احتمال وقوع به‌صورت دقیق استفاده می‌شود. مثال عملی کوتاه: تست پزشکی فرض کنید تستی برای یک بیماری حساسیت 95% و اختصاصیت 90% دارد، و شیوع بیماری در جمعیت 1% است.

احتمال اینکه کسی با تست مثبت واقعا بیمار باشد (احتمال پیشین) خیلی پایین‌تر از 95% است به دلیل شیوع کم؛ اینجا محاسبه‌ی دقیق با استفاده از قضیه بیز ضروری است تا به عدد درست برسیم.

این یک نمونه‌ واقعی است که نشان می‌دهد داشتن یک عدد حساسیت یا دقتِ آزمایشی به تنهایی برای محاسبه‌ی احتمال وقوع کافی نیست. اشتباه‌های رایج حالا چند نکته فنی که برای دقت لازم است: اول، شناخت فضای نمونه و استقلال رویدادها. بسیاری از خطاها از فرض استقلال ناشی می‌شود؛

اگر اتفاق‌ها وابسته باشند، فرمول‌های ساده کار نمی‌کنند. دوم، نمونه‌ی کوچک باعث پراکندگی زیاد در تخمین می‌شود؛ باید همیشه خطای استاندارد یا بازه‌ی اطمینان را حساب کنیم. برای تخمین فرکانسی، خطای استاندارد برای نسبت به صورت sqrt(p(1-p)/N) است؛ این عدد به ما می‌گوید چقدر احتمالی که محاسبه کردیم قابل اطمینان است. سوم، اشتباه در تفسیر احتمال: احتمال وقوع یک رویداد در بلندمدت با احتمال شرطی یا شانس لحظه‌ای فرق دارد.

محاسبه‌ی دقیق در مسائل پیچیده معمولاً مستقیم از فرمول‌های تحلیلی نمی‌آید. اینجا شبیه‌سازی مونت‌کارلو کمک بزرگی است: مدل مشکل را می‌سازیم، هزاران یا میلیون‌ها نمونه شبیه‌سازی اجرا می‌کنیم و نسبتی از نمونه‌هایی که رویداد موردنظر رخ داده‌اند را به‌عنوان تخمین احتمال می‌گیریم. این روش برای مدل‌های مالی، مدل‌های هواشناسی یا هر سیستمی که تحلیلی حل‌پذیر نیست مناسب است. مهم است که تعداد شبیه‌سازی‌ها کافی باشد تا خطای آماری پایین بیاید و توزیع ورودی‌ها به‌درستی مشخص شده باشد.

یک مثال واقعی دیگر: پیش‌بینی بارندگی مدل‌های هواشناسی خروجی‌های پیچیده‌ای دارند؛ هر مدل، یا هر عضو یک مجموعه (ensemble)، سناریویی تولید می‌کند.

احتمال وقوع باران را می‌توان با شمارش اعضایی که باران را پیش‌بینی کرده‌اند تقسیم بر کل اعضا تخمین زد. اما برای دقت بهتر باید ورودی‌ها، عدم قطعیت‌های مدل فیزیکی و خطاهای مشاهداتی را هم وارد کنیم و معمولاً از بیزین یا شبیه‌سازی برای تلفیق همه‌ی این منابع عدم قطعیت استفاده می‌شود. نکته‌ای درباره‌ی مقیاس و واحدها: خیلی از مواقع احتمال وقوع به شرایط وابسته است؛

مثلاً احتمال شکست یک قطعه الکترونیکی در یک روز مشخص متفاوت است از احتمال شکست در طول یک سال. پس تعریف بازه زمانی و معیار «رخداد» را صریح بنویسید. ابزارها و تکنیک‌های کلیدی برای محاسبه‌ی دقیق: جمع‌آوری داده‌های با کیفیت و بررسی نمونه‌های گم‌شده یا مغرضانه.

انتخاب مدل مناسب: بیزی، فرکانسی، یا مدل‌های مبتنی بر شبیه‌سازی. محاسبه‌ی بازه‌های اطمینان یا بازه‌های اعتقادی (credible intervals) برای نشان دادن عدم قطعیت.

تحلیل حساسیت: بررسی کنید نتیجه چگونه با تغییر فرض‌ها یا پارامترها تغییر می‌کند. اعتبارسنجی مدل با داده‌های مستقل (cross-validation یا hold-out) تا از تطابق مدل با واقعیت مطمئن شوید.

استفاده از روش‌های مدرن مثل MCMC برای مسائل بیزی پیچیده یا الگوریتم‌های افزایشی برای داده‌های بزرگ. در عمل، «دقت» همیشه نسبی است. محاسبه‌ی دقیق یعنی رسیدن به تخمینی همراه با مقدار خطا یا عدم قطعیت مشخص. مثلاً اگر با یک شبیه‌سازی میلیون نمونه بگیریم و نتیجه p=0. 123 باشد، خطای استاندارد حدود sqrt(p(1-p)/N) 0.

0003 خواهد بود؛ این عدد به ما می‌گوید تخمینِ ما تا چه حد «دقیق» است. اما اگر ورودی‌ها یا مدل نادرست باشد، حتی با خطای آماری کوچک، تخمین بی‌ارزش خواهد بود. بنابراین هر محاسبه کمی علمی و کمی هنر فرض‌گذاری درست است.

یک مثال صنعتی: احتمال شکست یک موتور شرکت‌ها برای تعیین نگهداری پیشگیرانه، از داده‌های خرابی گذشته و تست‌های تنش استفاده می‌کنند. اگر تعداد خرابی‌ها کم باشد، از مدل بیزی با پریور مبتنی بر تجربه صنعت استفاده می‌کنند و با دریافت داده‌های جدید پریور را آپدیت می‌کنند.

اگر داده زیاد باشد، مدل‌های فرکانسی و روش‌های بقا (survival analysis) مثل توزیع ویبل یا اکسپوننشیال به کار می‌آیند. در هر دو حالت محاسبه‌ی دقیق شامل برآورد پارامترها، محاسبه‌ی بازه‌ها و بررسی حساسیت به فروض است.

احتمال وقوع را نمی‌توان به‌صورت مطلق «دقیق» کرد مگر اینکه همه‌ی شرایط و عدم قطعیت‌ها را اندازه‌گیری کرده باشیم. اما با شفاف کردن فرض‌ها، انتخاب مدل مناسب، استفاده از داده و شبیه‌سازی و گزارش کردن بازه‌های عدم قطعیت می‌توان به تخمین‌هایی رسید که برای تصمیم‌گیری‌ها قابل اعتماد باشند.

جمع‌بندی کوتاه اگر بخواهم خلاصه بگویم: دقیق بودن در محاسبه‌ی احتمال وقوع یعنی تعریف واضحِ رویداد، انتخاب مدل مناسب، استفاده از داده و شبیه‌سازی، و گزارش عدم قطعیت. همیشه بیاد داشته باشید که عددِ نهایی تنها زمانی مفید است که فرآیند ساخت آن شفاف و قابل آزمون باشد.

🙏 اگر محب اهل بیت هستید یک صلوات بفرستید و اگر کورش بزرگ شاه شاهان را قبول دارید برای سرافرازی میهن عزیزمان دعا کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *