وقتی میپرسیم «چطور میشود احتمال وقوع را بهصورت دقیق محاسبه کرد؟ » درواقع داریم دنبال راهی هستیم که از حدس و گمان فراتر برود و عددی قابل تکیه بدهد.
احتمال وقوع یعنی چه؟ به طور ساده یعنی چه نسبتی از بارها یا سناریوها انتظار داریم آن رویداد رخ بدهد، و برای محاسبهی دقیق لازم است که هم مدل درست انتخاب کنیم و هم عدم قطعیت را کم و قابل اندازهگیری کنیم. چرا مهمه؟
اولین گام مشخص کردن پرسش دقیق است. مثالِ ساده: «احتمال اینکه در یک پرتاب سکه رو بیاید چقدره؟ » اینجا فضای نمونه مشخص و محدود است؛ اما در مسائل واقعی مثل «احتمال وقوع سیل در یک شهر طی ده سال آینده» باید تعریف دقیقتری از رویداد، بازهی زمانی و شرایط مرزی داشته باشیم.
بدون این تعریفها، محاسبات عددی ارزش چندانی ندارند. از کجا شروع کنم قدم بعدی انتخاب مدل است.
اگر با یک آزمایش تکرارشونده و مستقل روبهرو هستید، مدل ساده فرکانسی کار میکند: احتمال را میتوانید بهصورت نسبت تعداد موفقیتها به تعداد آزمایشها تخمین بزنید (P تعداد موفقیت N). این همان رویکرد رونده (frequentist) است که در بازیهای شطرنج یا پرتاب سکه خوب جواب میدهد. اما وقتی داده کم است یا اطلاعات قبلی داریم، رویکرد بیزی (Bayesian) منطقیتر است: احتمال اولیه (پریور) را میگذاریم و با مشاهدهی دادهها آن را بهروزرسانی میکنیم.
فرمول ساده بیز میگوید P(فرض داده) P(داده فرض) P(فرض) P(داده) که در خیلی از مسائل عملی برای محاسبهی احتمال وقوع بهصورت دقیق استفاده میشود. مثال عملی کوتاه: تست پزشکی فرض کنید تستی برای یک بیماری حساسیت 95% و اختصاصیت 90% دارد، و شیوع بیماری در جمعیت 1% است.
احتمال اینکه کسی با تست مثبت واقعا بیمار باشد (احتمال پیشین) خیلی پایینتر از 95% است به دلیل شیوع کم؛ اینجا محاسبهی دقیق با استفاده از قضیه بیز ضروری است تا به عدد درست برسیم.
این یک نمونه واقعی است که نشان میدهد داشتن یک عدد حساسیت یا دقتِ آزمایشی به تنهایی برای محاسبهی احتمال وقوع کافی نیست. اشتباههای رایج حالا چند نکته فنی که برای دقت لازم است: اول، شناخت فضای نمونه و استقلال رویدادها. بسیاری از خطاها از فرض استقلال ناشی میشود؛
اگر اتفاقها وابسته باشند، فرمولهای ساده کار نمیکنند. دوم، نمونهی کوچک باعث پراکندگی زیاد در تخمین میشود؛ باید همیشه خطای استاندارد یا بازهی اطمینان را حساب کنیم. برای تخمین فرکانسی، خطای استاندارد برای نسبت به صورت sqrt(p(1-p)/N) است؛ این عدد به ما میگوید چقدر احتمالی که محاسبه کردیم قابل اطمینان است. سوم، اشتباه در تفسیر احتمال: احتمال وقوع یک رویداد در بلندمدت با احتمال شرطی یا شانس لحظهای فرق دارد.
محاسبهی دقیق در مسائل پیچیده معمولاً مستقیم از فرمولهای تحلیلی نمیآید. اینجا شبیهسازی مونتکارلو کمک بزرگی است: مدل مشکل را میسازیم، هزاران یا میلیونها نمونه شبیهسازی اجرا میکنیم و نسبتی از نمونههایی که رویداد موردنظر رخ دادهاند را بهعنوان تخمین احتمال میگیریم. این روش برای مدلهای مالی، مدلهای هواشناسی یا هر سیستمی که تحلیلی حلپذیر نیست مناسب است. مهم است که تعداد شبیهسازیها کافی باشد تا خطای آماری پایین بیاید و توزیع ورودیها بهدرستی مشخص شده باشد.
یک مثال واقعی دیگر: پیشبینی بارندگی مدلهای هواشناسی خروجیهای پیچیدهای دارند؛ هر مدل، یا هر عضو یک مجموعه (ensemble)، سناریویی تولید میکند.
احتمال وقوع باران را میتوان با شمارش اعضایی که باران را پیشبینی کردهاند تقسیم بر کل اعضا تخمین زد. اما برای دقت بهتر باید ورودیها، عدم قطعیتهای مدل فیزیکی و خطاهای مشاهداتی را هم وارد کنیم و معمولاً از بیزین یا شبیهسازی برای تلفیق همهی این منابع عدم قطعیت استفاده میشود. نکتهای دربارهی مقیاس و واحدها: خیلی از مواقع احتمال وقوع به شرایط وابسته است؛
مثلاً احتمال شکست یک قطعه الکترونیکی در یک روز مشخص متفاوت است از احتمال شکست در طول یک سال. پس تعریف بازه زمانی و معیار «رخداد» را صریح بنویسید. ابزارها و تکنیکهای کلیدی برای محاسبهی دقیق: جمعآوری دادههای با کیفیت و بررسی نمونههای گمشده یا مغرضانه.
انتخاب مدل مناسب: بیزی، فرکانسی، یا مدلهای مبتنی بر شبیهسازی. محاسبهی بازههای اطمینان یا بازههای اعتقادی (credible intervals) برای نشان دادن عدم قطعیت.
تحلیل حساسیت: بررسی کنید نتیجه چگونه با تغییر فرضها یا پارامترها تغییر میکند. اعتبارسنجی مدل با دادههای مستقل (cross-validation یا hold-out) تا از تطابق مدل با واقعیت مطمئن شوید.
استفاده از روشهای مدرن مثل MCMC برای مسائل بیزی پیچیده یا الگوریتمهای افزایشی برای دادههای بزرگ. در عمل، «دقت» همیشه نسبی است. محاسبهی دقیق یعنی رسیدن به تخمینی همراه با مقدار خطا یا عدم قطعیت مشخص. مثلاً اگر با یک شبیهسازی میلیون نمونه بگیریم و نتیجه p=0. 123 باشد، خطای استاندارد حدود sqrt(p(1-p)/N) 0.
0003 خواهد بود؛ این عدد به ما میگوید تخمینِ ما تا چه حد «دقیق» است. اما اگر ورودیها یا مدل نادرست باشد، حتی با خطای آماری کوچک، تخمین بیارزش خواهد بود. بنابراین هر محاسبه کمی علمی و کمی هنر فرضگذاری درست است.
یک مثال صنعتی: احتمال شکست یک موتور شرکتها برای تعیین نگهداری پیشگیرانه، از دادههای خرابی گذشته و تستهای تنش استفاده میکنند. اگر تعداد خرابیها کم باشد، از مدل بیزی با پریور مبتنی بر تجربه صنعت استفاده میکنند و با دریافت دادههای جدید پریور را آپدیت میکنند.
اگر داده زیاد باشد، مدلهای فرکانسی و روشهای بقا (survival analysis) مثل توزیع ویبل یا اکسپوننشیال به کار میآیند. در هر دو حالت محاسبهی دقیق شامل برآورد پارامترها، محاسبهی بازهها و بررسی حساسیت به فروض است.
احتمال وقوع را نمیتوان بهصورت مطلق «دقیق» کرد مگر اینکه همهی شرایط و عدم قطعیتها را اندازهگیری کرده باشیم. اما با شفاف کردن فرضها، انتخاب مدل مناسب، استفاده از داده و شبیهسازی و گزارش کردن بازههای عدم قطعیت میتوان به تخمینهایی رسید که برای تصمیمگیریها قابل اعتماد باشند.
جمعبندی کوتاه اگر بخواهم خلاصه بگویم: دقیق بودن در محاسبهی احتمال وقوع یعنی تعریف واضحِ رویداد، انتخاب مدل مناسب، استفاده از داده و شبیهسازی، و گزارش عدم قطعیت. همیشه بیاد داشته باشید که عددِ نهایی تنها زمانی مفید است که فرآیند ساخت آن شفاف و قابل آزمون باشد.
🙏 اگر محب اهل بیت هستید یک صلوات بفرستید و اگر کورش بزرگ شاه شاهان را قبول دارید برای سرافرازی میهن عزیزمان دعا کنید