吐槽一下概率论的定义符号

First Post:

Last Update:

Word Count:
2.3k

Read Time:
9 min

Page View: loading...

写在前面

恕我愚笨,在第一次学概率论的时候一直搞不清楚基础的定义,似乎后来所有的公式都是或多或少靠背诵的;重新回来复习的时候看到了基础的条件概率的定义,实在是觉得反直觉,因此用我自己喜欢的方式重写一下,方便日后速查。

条件概率

就是为了理解什么是条件概率,常见的条件概率的定义是这样的:

意味着,在发生事件A的条件下,事件B发生的概率。

令人迷惑的是什么是“在发生事件A的条件下”,而且后面会讨论到什么是不发生这件事情的概率,因此所以我喜欢先修改事件的定义为 ,这样便于观察两个不同的事件组中的所有的事件的交叉可能性,而不再是一个事件发生xx情况的可能性。

这样定义两个事件的条件概率,是最好理解的(因为存在B的时候A不能单独存在):

简单解释就是,“在事件发生的条件下,在事件族中发生事件的可能性”。

贝叶斯公式

贝叶斯公式巧妙地联结了逆序的因果,如果说条件概率: 的话,那么贝叶斯就是找到了 ,也就是说,条件和结果是可互换的。

常见的写法是:

但是这无论是顺序还是其中的定义符号,都太反化简约掉和对于事件的定义的直觉了,而且让我感觉困惑,因此按照公式(2),可以改写成:

这样一切都很顺眼了,分子就是公式(2)得到,分母就是:

这样的形式其实也更好地能够引出为什么香农(Claude Elwood Shannon)会用log来定义信息熵,因为对数函数就是具有这样的性质:

例子

说服我自己,也说服你,试试看呢说不定就更有道理,哈哈哈哈。

栗子1

  • 事件族 :明天下雨的情况

    • :不下雨
    • :下雨
  • 事件族 :某学生明天去上学的情况

    • :不上学
    • :上学

我们可以用联合概率 来表示两个事件同时发生的概率。根据你提供的表格,我们有:

P(A_i, B_j) B_0(不上学) B_1(上学)
A_0(不下雨) 1/3 1/3
A_1(下雨) 1/12 1/4

重新表述问题

假设我们想要计算在某个特定条件下(例如,给定 )事件 发生的概率,即条件概率 。根据贝叶斯公式,我们可以这样计算:

其中:

  • 是联合概率,即事件 和事件 同时发生的概率,
  • 是事件 发生的边缘概率。
A A_0(不下雨) A_1(下雨)
P(A_i) 2/3 1/3
  • 是事件 发生的边缘概率。
B B_0(不上学) B_1(上学)
P(B_j) 5/12 7/12
先有联合概率才有边缘概率分布!!!除非两个事件族独立

示例计算

  1. 计算 (即在下雨的情况下学生上学的概率):

    从表格中可以看到:

    因此:


栗子2

癌症检测 —— 检测结果是阳性为事件A,实际患有癌症为事件C, 该医院检测的可靠度为95%(即患有癌症检测为阳性的概率为95%,没有癌症检测结果为阴性的概率为 95%),人群中患有癌症的概率为1%。求若检测结果为阳性,实际患有癌症的概率是多少。

重新表述问题

好的,我们可以通过贝叶斯公式来解决这个问题。假设:

  • 事件族 :检测结果

    • :阴性
    • :阳性
  • 事件族 :实际患有癌症情况

    • :没有患癌
    • :确实患癌

已知条件如下:

  • 检测的可靠度为95%,即 (患有癌症的情况下被检测为阳性)。
  • 同时,没患有癌症的情况下被检测为阴性的概率也为95%,因此
  • 上述二式可以得到误检率是5%:
  • 人群中患有癌症的概率为1%,即
  • 因此,没有癌症的概率为

示例计算

我们需要计算的是在检测结果为阳性的情况下,实际患有癌症的概率 ,即倒置因果,贝叶斯。


或者,我们还有其他的解释词:

将癌症检测问题转化为机器学习中的混淆矩阵,可以帮助我们更直观地理解模型的预测结果与实际情况之间的关系。混淆矩阵是一个特定格式的表格,用于描述分类模型(或“分类器”)的表现,显示了每个类别被正确和错误分类的情况。

在你提供的癌症检测问题中,我们可以将其视为一个二分类问题,其中:

  • 正类(Positive, P):实际患有癌症。
  • 负类(Negative, N):实际上没有癌症。

基于这些定义,我们可以构建如下的混淆矩阵(Confusion Matrix):

预测: 患有癌症 (阳性) 预测: 未患癌症 (阴性)
实际: 患有癌症 真阳性 (TP) 假阴性 (FN)
实际: 未患癌症 假阳性 (FP) 真阴性 (TN)
  1. 真阳性 (TP):实际上患有癌症且被正确诊断为阳性的概率是
  2. 假阴性 (FN):实际上患有癌症但被错误地诊断为阴性的概率是
  3. 假阳性 (FP):实际上未患癌症但被错误地诊断为阳性的概率是
  4. 真阴性 (TN):实际上未患癌症且被正确诊断为阴性的概率是

因此,淆矩阵如下所示:

预测: 患有癌症 (阳性) 预测: 未患癌症 (阴性)
实际: 患有癌症 0.95% 0.05%
实际: 未患癌症 4.95% 94.05%

通过混淆矩阵,我们可以计算各种性能指标来评估分类器的效果,比如准确率(Accuracy)、精确率(Precision)、召回率(Recall),以及F1分数(F1 Score)。这些指标帮助我们全面了解分类模型的表现。

其实原题就是求精确率

计算公式

1. 准确率(Accuracy)

准确率是指所有预测正确的样本占总样本数的比例。

代入具体数值:

2. 精确率(Precision)

精确率是指被预测为正类的样本中实际为正类的比例。

代入具体数值:

3. 召回率(Recall)

召回率是指实际为正类的样本中被正确预测为正类的比例。

代入具体数值:

4. F1 分数(F1 Score)

F1分数是精确率和召回率的调和平均值,提供了单一指标来评估模型的整体表现。

代入精确率和召回率的具体数值:

总结

  • 准确率 (Accuracy): 或者 95%
  • 精确率 (Precision): 或者 16.1%
  • 召回率 (Recall): 或者 95%
  • F1 分数 (F1 Score): 或者 27.5%

这些指标展示了模型在不同方面的表现:

  • 虽然整体准确率很高(95%),但这是因为大多数样本都是负类(未患癌症)。
  • 精确率较低(16.1%),意味着在所有被诊断为阳性的病例中,只有大约16.1%确实是患有癌症的。
  • 召回率较高(95%),说明大部分实际患有癌症的人都能被正确诊断出来。
  • F1分数综合考虑了精确率和召回率,反映了模型在这两个方面的平衡情况。