吐槽一下概率论的定义符号
Last Update:
Word Count:
Read Time:
Page View: loading...
写在前面
恕我愚笨,在第一次学概率论的时候一直搞不清楚基础的定义,似乎后来所有的公式都是或多或少靠背诵的;重新回来复习的时候看到了基础的条件概率的定义,实在是觉得反直觉,因此用我自己喜欢的方式重写一下,方便日后速查。
条件概率
就是为了理解什么是条件概率,常见的条件概率的定义是这样的:
意味着,在发生事件A的条件下,事件B发生的概率。
令人迷惑的是什么是“在发生事件A的条件下”,而且后面会讨论到什么是不发生这件事情的概率,因此所以我喜欢先修改事件的定义为 ,,这样便于观察两个不同的事件组中的所有的事件的交叉可能性,而不再是一个事件发生xx情况的可能性。
这样定义两个事件的条件概率,是最好理解的(因为存在B的时候A不能单独存在):
简单解释就是,“在事件发生的条件下,在事件族中发生事件的可能性”。
贝叶斯公式
贝叶斯公式巧妙地联结了逆序的因果,如果说条件概率: 是 的话,那么贝叶斯就是找到了 ,也就是说,条件和结果是可互换的。
常见的写法是:
但是这无论是顺序还是其中的定义符号,都太反化简约掉和对于事件的定义的直觉了,而且让我感觉困惑,因此按照公式(2),可以改写成:
这样一切都很顺眼了,分子就是公式(2)得到,分母就是:
这样的形式其实也更好地能够引出为什么香农(Claude Elwood Shannon)会用log来定义信息熵,因为对数函数就是具有这样的性质:
例子
说服我自己,也说服你,试试看呢说不定就更有道理,哈哈哈哈。
栗子1
事件族 :明天下雨的情况
- :不下雨
- :下雨
事件族 :某学生明天去上学的情况
- :不上学
- :上学
我们可以用联合概率 来表示两个事件同时发生的概率。根据你提供的表格,我们有:
P(A_i, B_j) | B_0(不上学) | B_1(上学) |
---|---|---|
A_0(不下雨) | 1/3 | 1/3 |
A_1(下雨) | 1/12 | 1/4 |
重新表述问题
假设我们想要计算在某个特定条件下(例如,给定 )事件 发生的概率,即条件概率 。根据贝叶斯公式,我们可以这样计算:
其中:
- 是联合概率,即事件 和事件 同时发生的概率,。
- 是事件 发生的边缘概率。
A | A_0(不下雨) | A_1(下雨) |
---|---|---|
P(A_i) | 2/3 | 1/3 |
- 是事件 发生的边缘概率。
B | B_0(不上学) | B_1(上学) |
---|---|---|
P(B_j) | 5/12 | 7/12 |
示例计算
计算 (即在下雨的情况下学生上学的概率):
从表格中可以看到:
因此:
栗子2
癌症检测 —— 检测结果是阳性为事件A,实际患有癌症为事件C, 该医院检测的可靠度为95%(即患有癌症检测为阳性的概率为95%,没有癌症检测结果为阴性的概率为 95%),人群中患有癌症的概率为1%。求若检测结果为阳性,实际患有癌症的概率是多少。
重新表述问题
好的,我们可以通过贝叶斯公式来解决这个问题。假设:
事件族 :检测结果
- :阴性
- :阳性
事件族 :实际患有癌症情况
- :没有患癌
- :确实患癌
已知条件如下:
- 检测的可靠度为95%,即 (患有癌症的情况下被检测为阳性)。
- 同时,没患有癌症的情况下被检测为阴性的概率也为95%,因此。
- 上述二式可以得到误检率是5%:
- 人群中患有癌症的概率为1%,即 。
- 因此,没有癌症的概率为 。
示例计算
我们需要计算的是在检测结果为阳性的情况下,实际患有癌症的概率 ,即倒置因果,贝叶斯。
或者,我们还有其他的解释词:
将癌症检测问题转化为机器学习中的混淆矩阵,可以帮助我们更直观地理解模型的预测结果与实际情况之间的关系。混淆矩阵是一个特定格式的表格,用于描述分类模型(或“分类器”)的表现,显示了每个类别被正确和错误分类的情况。
在你提供的癌症检测问题中,我们可以将其视为一个二分类问题,其中:
- 正类(Positive, P):实际患有癌症。
- 负类(Negative, N):实际上没有癌症。
基于这些定义,我们可以构建如下的混淆矩阵(Confusion Matrix):
预测: 患有癌症 (阳性) | 预测: 未患癌症 (阴性) | |
---|---|---|
实际: 患有癌症 | 真阳性 (TP) | 假阴性 (FN) |
实际: 未患癌症 | 假阳性 (FP) | 真阴性 (TN) |
- 真阳性 (TP):实际上患有癌症且被正确诊断为阳性的概率是 。
- 假阴性 (FN):实际上患有癌症但被错误地诊断为阴性的概率是 。
- 假阳性 (FP):实际上未患癌症但被错误地诊断为阳性的概率是 。
- 真阴性 (TN):实际上未患癌症且被正确诊断为阴性的概率是 。
因此,淆矩阵如下所示:
预测: 患有癌症 (阳性) | 预测: 未患癌症 (阴性) | |
---|---|---|
实际: 患有癌症 | 0.95% | 0.05% |
实际: 未患癌症 | 4.95% | 94.05% |
通过混淆矩阵,我们可以计算各种性能指标来评估分类器的效果,比如准确率(Accuracy)、精确率(Precision)、召回率(Recall),以及F1分数(F1 Score)。这些指标帮助我们全面了解分类模型的表现。
其实原题就是求精确率
计算公式
1. 准确率(Accuracy)
准确率是指所有预测正确的样本占总样本数的比例。
代入具体数值:
2. 精确率(Precision)
精确率是指被预测为正类的样本中实际为正类的比例。
代入具体数值:
3. 召回率(Recall)
召回率是指实际为正类的样本中被正确预测为正类的比例。
代入具体数值:
4. F1 分数(F1 Score)
F1分数是精确率和召回率的调和平均值,提供了单一指标来评估模型的整体表现。
代入精确率和召回率的具体数值:
总结
- 准确率 (Accuracy): 或者 95%
- 精确率 (Precision): 或者 16.1%
- 召回率 (Recall): 或者 95%
- F1 分数 (F1 Score): 或者 27.5%
这些指标展示了模型在不同方面的表现:
- 虽然整体准确率很高(95%),但这是因为大多数样本都是负类(未患癌症)。
- 精确率较低(16.1%),意味着在所有被诊断为阳性的病例中,只有大约16.1%确实是患有癌症的。
- 召回率较高(95%),说明大部分实际患有癌症的人都能被正确诊断出来。
- F1分数综合考虑了精确率和召回率,反映了模型在这两个方面的平衡情况。