吐槽一下概率论的定义符号

First Post:

2025-01-31

Last Update:

2025-02-01

Word Count:

2.3k

Read Time:

9 min

Page View: loading...

写在前面

恕我愚笨，在第一次学概率论的时候一直搞不清楚基础的定义，似乎后来所有的公式都是或多或少靠背诵的；重新回来复习的时候看到了基础的条件概率的定义，实在是觉得反直觉，因此用我自己喜欢的方式重写一下，方便日后速查。

条件概率

就是为了理解什么是条件概率，常见的条件概率的定义是这样的：

$P(B|A) = \frac{P(A,B)}{P(A)}\tag{1}$

意味着，在发生事件A的条件下，事件B发生的概率。

令人迷惑的是什么是“在发生事件A的条件下”，而且后面会讨论到什么是不发生这件事情的概率，因此所以我喜欢先修改事件的定义为 $A_i \in {A}, i=0,1,...,|A|$ ， $B_j \in {B}, j=0,1,...,|B|$ ，这样便于观察两个不同的事件组中的所有的事件的交叉可能性，而不再是一个事件发生xx情况的可能性。

这样定义两个事件的条件概率，是最好理解的(因为存在B的时候A不能单独存在)：

$P(B_j|A_i) = \frac{P(A_i,B_j)}{P(A_i, B)} \tag{2}$

简单解释就是，“在 $A_i$ 事件发生的条件下，在 $B$ 事件族中发生 $B_j$ 事件的可能性”。

贝叶斯公式

贝叶斯公式巧妙地联结了逆序的因果，如果说条件概率： $P(B_j|A_i)$ 是 $P(果|因)$ 的话，那么贝叶斯就是找到了 $P(果|因) = Bayes(P(因|果))$ ，也就是说，条件和结果是可互换的。

常见的写法是：

$P(B|A) = \frac{P(B)P(A|B)}{P(A)} = \frac{P(B)P(A|B)}{P(B)P(A|B) + P(¬ {B})P(A|¬ B)} \tag{3}$

但是这无论是顺序还是其中的定义符号，都太反化简约掉和对于事件的定义的直觉了，而且让我感觉困惑，因此按照公式(2)，可以改写成：

$P(B_j|A_i) = \frac{P(A_i,B_j)}{P(A_i, B)} = \frac{P(A_i|B_j)P(B_j)}{P(A_i|B_j)P(B_j) + P(A_i|B \backslash B_j)P(B \backslash B_j)} \tag{4}$

这样一切都很顺眼了，分子就是公式(2)得到，分母就是：

$P(A_i, B) = P(A_i, B_j) + P(A_i, B \backslash B_j)$

这样的形式其实也更好地能够引出为什么香农(Claude Elwood Shannon)会用log来定义信息熵，因为对数函数就是具有这样的性质：

$logB + log(B/B_j) = log(B/B_j\times B_j) = logB$

例子

说服我自己，也说服你，试试看呢说不定就更有道理，哈哈哈哈。

栗子1

事件族 $\{A_i\}$ ：明天下雨的情况
- $A_0$ ：不下雨
- $A_1$ ：下雨
事件族 $\{B_j\}$ ：某学生明天去上学的情况
- $B_0$ ：不上学
- $B_1$ ：上学

我们可以用联合概率 $P(A_i, B_j)$ 来表示两个事件同时发生的概率。根据你提供的表格，我们有：

P(A_i, B_j)	B_0(不上学)	B_1(上学)
A_0(不下雨)	1/3	1/3
A_1(下雨)	1/12	1/4

重新表述问题

假设我们想要计算在某个特定条件下（例如，给定 $A_i$ ）事件 $B_j$ 发生的概率，即条件概率 $P(B_j | A_i)$ 。根据贝叶斯公式，我们可以这样计算：

$P(B_j | A_i) = \frac{P(A_i, B_j)}{P(A_i,B)}$

其中：

$P(A_i, B_j)$ 是联合概率，即事件 $A_i$ 和事件 $B_j$ 同时发生的概率， $\sum P(A_i, B_j) =1$ 。
$P(A_i, B)$ 是事件 $A_i$ 发生的边缘概率。

A	A_0(不下雨)	A_1(下雨)
P(A_i)	2/3	1/3

$P(B_j, A)$ 是事件 $B_j$ 发生的边缘概率。

B	B_0(不上学)	B_1(上学)
P(B_j)	5/12	7/12

先有联合概率才有边缘概率分布！！！除非两个事件族独立

示例计算

计算 $P(B_1 | A_1)$ （即在下雨的情况下学生上学的概率）：
$P(B_1 | A_1) = \frac{P(A_1, B_1)}{P(A_1, B)}$
从表格中可以看到：
$P(A_1, B_1) = \frac{1}{4}$ $P(A_1, B) = P(A_1, B_0) + P(A_1, B_1) = \frac{1}{12} + \frac{1}{4} = \frac{1}{3}$
因此：
$P(B_1 | A_1) = \frac{\frac{1}{4}}{\frac{1}{3}} = \frac{3}{4}$

栗子2

癌症检测 —— 检测结果是阳性为事件A，实际患有癌症为事件C，该医院检测的可靠度为95%（即患有癌症检测为阳性的概率为95%，没有癌症检测结果为阴性的概率为 95%），人群中患有癌症的概率为1%。求若检测结果为阳性，实际患有癌症的概率是多少。

重新表述问题

好的，我们可以通过贝叶斯公式来解决这个问题。假设：

事件族 $\{A_i\}$ ：检测结果
- $A_0$ ：阴性
- $A_1$ ：阳性
事件族 $\{C_j\}$ ：实际患有癌症情况
- $C_0$ ：没有患癌
- $C_1$ ：确实患癌

已知条件如下：

检测的可靠度为95%，即 $P(A_1|C_1) = 0.95$ （患有癌症的情况下被检测为阳性）。
同时，没患有癌症的情况下被检测为阴性的概率也为95%，因此 $P(A_0|C_0) = 0.95$ 。
上述二式可以得到误检率是5%： $P(A_1∣¬C_1) = P(A_0∣¬C_0) = P(A_1∣C_0) = P(A_0∣C_1) =1−0.95=0.05$
人群中患有癌症的概率为1%，即 $P(C_1) = 0.01$ 。
因此，没有癌症的概率为 $P(C_0) = 1 - P(C) = 0.99$ 。

示例计算

我们需要计算的是在检测结果为阳性的情况下，实际患有癌症的概率 $P(C_1|A_1)$ ，即倒置因果，贝叶斯。

$P(C_1|A_1) = \frac{P(C_1, A_1)}{P(C_1,A)} = \frac{P(A_1 | C_1)P(C_1)}{P(A_1 | C_1)P(C_1) + P(A_1 | C_0)P(C_0)} \approx 0.161$

或者，我们还有其他的解释词：

将癌症检测问题转化为机器学习中的混淆矩阵，可以帮助我们更直观地理解模型的预测结果与实际情况之间的关系。混淆矩阵是一个特定格式的表格，用于描述分类模型（或“分类器”）的表现，显示了每个类别被正确和错误分类的情况。

在你提供的癌症检测问题中，我们可以将其视为一个二分类问题，其中：

正类（Positive, P）：实际患有癌症。
负类（Negative, N）：实际上没有癌症。

基于这些定义，我们可以构建如下的混淆矩阵（Confusion Matrix）：

	预测: 患有癌症 (阳性)	预测: 未患癌症 (阴性)
实际: 患有癌症	真阳性 (TP)	假阴性 (FN)
实际: 未患癌症	假阳性 (FP)	真阴性 (TN)

真阳性 (TP)：实际上患有癌症且被正确诊断为阳性的概率是 $P(A_1 | C_1)P(C_1) = 0.95 \times 0.01 = 0.0095$ 。
假阴性 (FN)：实际上患有癌症但被错误地诊断为阴性的概率是 $1 - TP = 0.05 \times 0.01 = 0.0005$ 。
假阳性 (FP)：实际上未患癌症但被错误地诊断为阳性的概率是 $P(A_1 | C_0)P(C_0) = 0.05 \times 0.99 = 0.0495$ 。
真阴性 (TN)：实际上未患癌症且被正确诊断为阴性的概率是 $1 - FP = 0.95 \times 0.99 = 0.9405$ 。

因此，淆矩阵如下所示：

	预测: 患有癌症 (阳性)	预测: 未患癌症 (阴性)
实际: 患有癌症	0.95%	0.05%
实际: 未患癌症	4.95%	94.05%

通过混淆矩阵，我们可以计算各种性能指标来评估分类器的效果，比如准确率（Accuracy）、精确率（Precision）、召回率（Recall），以及F1分数（F1 Score）。这些指标帮助我们全面了解分类模型的表现。

其实原题就是求精确率

计算公式

1. 准确率（Accuracy）

准确率是指所有预测正确的样本占总样本数的比例。

$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$

代入具体数值：

$\text{Accuracy} = \frac{0.0095 + 0.9405}{0.0095 + 0.9405 + 0.0495 + 0.0005} = \frac{0.95}{1} = 0.95$

2. 精确率（Precision）

精确率是指被预测为正类的样本中实际为正类的比例。

$\text{Precision} = \frac{TP}{TP + FP}$

代入具体数值：

$\text{Precision} = \frac{0.0095}{0.0095 + 0.0495} = \frac{0.0095}{0.059} \approx 0.161$

3. 召回率（Recall）

召回率是指实际为正类的样本中被正确预测为正类的比例。

$\text{Recall} = \frac{TP}{TP + FN}$

代入具体数值：

$\text{Recall} = \frac{0.0095}{0.0095 + 0.0005} = \frac{0.0095}{0.01} = 0.95$

4. F1 分数（F1 Score）

F1分数是精确率和召回率的调和平均值，提供了单一指标来评估模型的整体表现。

$\text{F1 Score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$

代入精确率和召回率的具体数值：

$\text{F1 Score} = 2 \cdot \frac{0.161 \cdot 0.95}{0.161 + 0.95} \approx 2 \cdot \frac{0.15295}{1.111} \approx 0.275$

总结

准确率 (Accuracy): $0.95$ 或者 95%
精确率 (Precision): $0.161$ 或者 16.1%
召回率 (Recall): $0.95$ 或者 95%
F1 分数 (F1 Score): $0.275$ 或者 27.5%

这些指标展示了模型在不同方面的表现：

虽然整体准确率很高（95%），但这是因为大多数样本都是负类（未患癌症）。
精确率较低（16.1%），意味着在所有被诊断为阳性的病例中，只有大约16.1%确实是患有癌症的。
召回率较高（95%），说明大部分实际患有癌症的人都能被正确诊断出来。
F1分数综合考虑了精确率和召回率，反映了模型在这两个方面的平衡情况。

≡