概率与统计的原理-课程笔记

为什么上这门课？

概率论是生活必备的基本知识；
复习概率论领域中的基本概念；

一般到哪里卡壳了呢？

1）条件概率；【条件概率本质上影响的是样本空间，换句话说当我们知道某件事发生的前提下，我们对目标事件的看法会发生改变】

2）贝叶斯；【贝叶斯探讨的是，在给定事件发生的前提下，导致这个事情发生的原因有哪些，以及这些原因的概率有多大】

3）统计检验在不同场景下的应用，以及他们的道理是什么？【假设检验很容易理解，首先需要明确的一点是：进行假设检验背后的理论基础是大数定律和中心极限定律。其次，假设检验包含了假设和检验两部分，换句话说，在进行检验之前你必须要有一个假设，称之为虚无假设。P-value代表的是在虚无假设的前提下，得到给定样本的可能性是多少。如果这个可能性很低，我们就有理由拒绝虚无假设。】

基本概念

概率名词：实验(Experiment,experiment,experiment)；一个实验包含：步骤（procedures），模型（model），观察（observations）、
结果（outcome）、样本空间（sample space），机率实验所有可能的结果的集合，通常用S来表示、事件（event），对实验结果的某种叙述。

机率的三条公理

公理一：对于任何事件A而言，P(A)>=0;
公理二：P(S) = 1；S是样本空间
公理三：时间A1,A2,…互斥 => P(A1 U A2 U A3 U …) = P(A1) + P(A2) + P(A3) + …
https://youtu.be/NIszc2yzmD8?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=609

机率很多时候反映的是我们对某些事情的了解程度
https://youtu.be/qc8KRumNlio?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=57

条件概率

【条件概率本质上刻画的是，当我们知道某些事情发生后，我们对一件事情的了解可能会有所改变。一旦我们对一个事情的了解发生了改变，它对应的样本空间也就发生了变化】

P(X|Y) 念做 P of X given Y

P(oi|Y) = P(oi)/P(Y)
https://youtu.be/HhUmP_jzxAo?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=100
为什么在Y发生的前提下，oi发生的概率等于P(oi)除上P(Y)呢？想一个合理的解释，如果没有合理的解释永远，永远都记不住！
叶丙成老师的解释：
https://youtu.be/qc8KRumNlio?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=613
我的评价：很模糊，其实也没说清楚，在卷角漏曲的前提下，B为正解的概率是多少？

北京大学-何书元对条件概率的推导：
https://youtu.be/B35CIZZcCjo?list=PLiNa3O8Vm6CHQ6oQf7ItPQ5_cvk9wQsO-&t=383
从公式上进行的推导，很无聊，但严谨。没有形象的比喻，也不容易理解。

我的理解：应该从样本空间的角度考虑。首先在知道卷角漏曲的前提下，我们的样本空间只剩下B和D了，而在原始的样本空间中，outcome B和outcome D的概率是一样的。根据观察，在现在的样本空间中，outcome B和outcome D的概率也是一样的。
所以，在知道卷角漏曲的前提下，B为正解的概率就是1/2。其中1代表样本B，2代表样本空间的两个样本B和D。如果分子分母同时除上4，【(1/4)/(2/4)】，分子代表在原始的样本空间（A,B,C,D）中，B发生的概率是1/4，卷角漏曲对应的概率是2/4；

如何理解除法，是否可以从除法的角度理解条件概率

这是一个哲学的问题，为什么要有除法？

除法意味着两个值做比较，X/Y如果比1大，那么意味着X比Y大。
同时除法也有归一化的用途，X/Y，如果Y是最大值，那么相当于把所有的值都缩放到[0,1]的区间内。
那么概率相除是什么含义呢？一个事件发生的概率除上另外一个事情发生的概率，得到什么呢？——其实我觉得没有啥意义（起码现在还没想到非常形象的解释。

终极的条件概率计算公式
https://youtu.be/HhUmP_jzxAo?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=282

如何理解条件概率的计算公式。

P(X|Y)= P(X∩Y)/P(Y)
通常，这些词汇：condition on,suppose,if,assuming,given that。后边跟的就是条件概率的条件。

这个公式还会怎么用呢？
有些时候，条件机率我们是知道的，P(Y)的几率我们也是知道的，我们不知道P(X∩Y)的几率。

切面包定理（Total probability定理）

这节课讲的是Total probability定理：
https://youtu.be/D_pmxqOmhgQ?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=22

这个其实就是切面包定理
P(A) = P(A|C1)P(C1) + P(A|C2)P(C2)+…+P(A|Cn)P(Cn)
这里的A是我们关心的事情，A比如是店员笑不笑

贝叶斯定理（Bayes’ Rule）

接下来引申出来：Bayes’ Rule（贝氏定理）
这个定理下，A不是我们关心的事情，而是条件，换句话说，是店员笑的前提下，店客满的机率是多少？
https://youtu.be/D_pmxqOmhgQ?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=281

很多时候，哪些是条件，哪些是我们关心的东西也不太好确定。

如何理解贝叶斯定理的精华？前提是非常理解条件概率的精华，那么什么是条件概率呢？
条件概率P(X|Y) 念做，P of X given Y，含义是在Y发生的前提下，X发生的可能性。

李老师指出，书的价值不是在式子，式子都是大同小异的，真正有价值的地方是文字阐述的内容。因为不好用数学公式描述的地方才需要用文字进一步阐述。
https://youtu.be/jGmvsMbU8pA?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=625

随机变量的本质：
https://youtu.be/h0DH8K9JTpw?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=433
X:S-R S是样本空间，到实数的一个映射

概率分布相关的一些定义

什么是累计分布函数？
累积分布函数(Cumulative Distribution Function)
https://youtu.be/RlNfklkZPlo?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=149

什么是机率质量函数？
probability mass function，简写为pmf
https://youtu.be/ynBUPA67a3k?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=28
几率质量函数一定指的是，离散随机变量。
p_X(x)=P(X=x)

PMF和CDF之间的关系：
https://youtu.be/ynBUPA67a3k?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=459

在数学中，连续型随机变量的概率密度函数（Probability density function）PDF

probability mass function和probability indensity function之间的关系。
概率质量函数和概率密度函数不同之处在于：概率质量函数是对离散随机变量定义的，本身代表该值的概率；概率密度函数是对连续随机变量定义的，本身不是概率，只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。

伯努利分布，这样的module，有个特点一次实验，两个结果。

联合概率分布

为什么要探讨，联合纪律分布：
同时将很多个随机变量的行为一起拿来看，我们可以看到很多以往不一样的资讯！
Joint Probability distribution
https://youtu.be/FC4buzLuWmQ?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=78

边际概率分布：
marginal probability distribution，对某一个变量进行积分

Variance相关的性质
https://youtu.be/72GSlk0AfFc?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa
协方差：
Cov(X,Y) = E[(X-u_x)(Y-u_y)]

卷积，两个概率分布做卷积

出现了卷积的形式：
https://youtu.be/6b1-LIMMez4?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=305

X1，X2，X3是IID，（独立同分布的随机变量）
那么Z=X1+X2的PDF（probability density function）就是
X1和X2的PDF的卷积【这里需要问一百个为什么！！！可以借助卷积那个帖子进行理解，小球从高处落下】

如何理解两个函数做卷积？
这里有一个帖子：http://colah.github.io/posts/2014-07-Understanding-Convolutions/

两个概率分布做卷积后某一个点对应的值是什么含义？
是不是可以理解成Z=X1+X2，Z的概率分布。正因为是Z的概率分布，所以某一个位置的值不可能大于1。

什么是MGF?

Moment generating function
为什么要学MGF，因为convolution很不好算
https://youtu.be/6b1-LIMMez4?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=781

红娘这个例子太形象了
https://youtu.be/LGe5eEBzgeU?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=202

什么是moment？
没听懂。
https://youtu.be/mIbJfAvrNvw?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=645

独立随机变数之和
https://youtu.be/5RroTs-7wwE?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=55
I.I.D.
Independently and Identically Distributed

中心极限定律

中央极限定理背后的道理是什么？

第一种叙述方式：你有n个IID的随机变量X1,X2,X3,…,Xn，你把他们加起来，得到Z,当n趋近于无穷大时，Z的PDF就是高斯分布。
第二种叙述方式：中央极限定理：重复从整体中抽取样本，当样本足够大，抽取的次数足够多时，不论整体属于什么分布，这些样本的平均值会呈现出正态分布，其平均值等于整体平均值。

噪声为什么是正态分布？
首先电子有能量，有能量就会忽大忽小乱跑。关键点在于，这些电子都是独立的，很多很多个独立同分布的和的效应就是正态分布。
https://youtu.be/sWEjck-m1CQ?list=PLO2p2gIHQzKCd_dNMyizf-cTrUTKSlYVa&t=643

假设检验

依靠样本来推论整体，主要依靠两个定理：

中央极限定理：重复从整体中抽取样本，当样本足够大，抽取的次数足够多时，不论整体属于什么分布，这些样本的平均值会呈现出正态分布，其平均值等于整体平均值。
大数法则：当重复抽样的样本越大，样本平均数的标准差会越小
小概率事件在一次实验中不可能发生的

这里我终于理解了，为什么要做正态性检验了，因为如果我们的样本不符合正态性，那么我们的样本还不足推论整体；换句话说，我们的样本量还不够，还需要继续补充实验

什么是抽样分布：样本统计量（平均值）的分布，有三个特点：

https://youtu.be/bn92a9f2Snc?t=176

样本的平均值会呈现正态分布；
抽样分布的平均值等于整体的平均值；
样本越大，抽样分布的标准差越小

利用抽样分布的特点完成假设检定
https://youtu.be/bn92a9f2Snc?t=403。

统计检验有两个关键点：

样本大小：样本大小越大，抽样分布（样本统计量（平均值）的分布）的标准差越小
抽样次数：抽多少次

如果知道样本的大小（PS:这个我们当然知道，因为是我们自己抽的），所以我们就可以推估出来，理论上这个抽样分布应该长什么样子。

虚无假设，让我们知道正态分布的平均值；样本大小让我们推论出来正态分布的标准差。

如果没有虚无假设，我们就没有理论上的这个抽样分布。所以，光有样本的抽样分布，我们是没有办法得到任何的推论的。

p值的含义

p-value，代表我们拒绝虚无假设的证据力，如果p越小，我们拒绝虚无假设的证据力就越强，如果p越大，我们拒绝虚无假设的证据力就越弱。

P-value代表的是，虚无假设为真的前提下，抽到这样的样本的概率小于P-value

假设检验的问题

假设检验的问题在于，它讲不出来风险到底有多大会。

构造原假设（虚无假设）的基本原则：

保护原假设原则。换句话说，如果错误地拒绝A比错误地拒绝B带来更严重的后果——A应该是原假设。举个例子：假设A:新药有某种毒副作用，假设B：新药没有毒副作用。当我们错误地拒绝A，也就是说我们的决策时A没有毒副作用，当实际情况是A有毒副作用，所造成的的后果会非常严重，那么A就应该是我们的原假设。
原假设为维持现状。比如假设药物没有显著效果
取简单假设

T-Test检验和Anova检验

T-Test检验，包含单样本t检验，独立样本t检验【老李和老王两家的小麦产量有没有显著性的区别】，配对样本t检验【老王家的小麦产量在施加肥料和不施加肥料有没有差别】
t-test检验，检验的是两个变量之间的均值是否有差异。

Anova检验，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

什么是t分布，为什么t分布使得小样本的推论成为可能。

维基上的解释：https://zh.wikipedia.org/wiki/%E5%AD%A6%E7%94%9Ft-%E5%88%86%E5%B8%83
t分布是在未知整体标准差σ的情况下，用样本标准差（S/sqrt(n)）代替σ得到的统计量的分布。

我的回答，首先t分布是构造出来的一个统计量所服从的分布。这个统计量使得利用小样本的推论整体成为可能。当你的样本量足够多时，样本的抽样分布应该服从是正态分布

样本方差为什么除的是n-1，不是n呢？

我的回答，因为样本方差是有偏估计，想一个极端情况，当你只有1个样本时，你的方差是0，但是你不能推断出整体的方差也是0。

t-test的前提条件

计算相关系数，前提是要符合正态分布

我们要依据什么原理做出决策？

我的答案是中心极限定律和大数定律
老师的答案是：小概率事件在一次实验中是不会发生的。
https://youtu.be/b6WUxyJM3zc?t=1718

如何理解ROC曲线

要理解ROC曲线，前提是要理解横纵坐标。假阳性率为横轴（FPR），真阳性率（TPR）为纵轴。

如何理解ROC Space

如何理解ROC Space？Space上的某一个点，代表什么含义？
它是一个概率空间吗？——每一个点代表的是概率值？——不对
首先总结一下ROC对角线，这条直线上的点，对于阳性样本和阴性样本没有实际的区分度。换句话说就是random guess。因为，我们心目中的模型应该长这个样子，对于阳性样本来说，应该尽可能检测成阳性（TPR尽可能的高），对于阴性样本来说，应该尽可能检测成阴性（FPR尽可能的低）,这样的模型应该分布在这条线的左上区域。反之，如果连这一点都做不到的话，就位于该条直线的右下方，针对这样的情况，反向预测就能提升模型的预测性能。
(1,1)这个点代表：模型全部猜成阳性；
(0.5,0.5)点代表：模型把一半猜成阳性，一半猜成阴性；换句话说，在真实的阳性样本中，模型把其中的一半猜成了阳性，在真实的阴性样本中，模型也是把其中的一半猜成了阴性。
(0,0)点代表：模型全部猜成阴性。

在ROC空间中，每一个点代表的含义是：这个分类器，或者叫做模型，他在真实阳性样本中的表现（TPR）和在真实阴性样本中（FPR）的表现怎么样。

python绘制ROC曲线；
请参考：https://www.jianshu.com/p/2ca96fce7e81
几乎所有评估模型的指标都来自sklearn库下面的metrics，包括计算召回率，精确率等。ROC曲线的绘制也不例外

评价一个模型的常用指标

真阳性、假阳性；
假阴性、真阴性；

灵敏度（Sensitivity）:= 真阳性/(真阳性+假阴性) = 真阳性/(所有真阳性者)【用来评价检测真阳性的能力】=【换句话说，所有真实类别为1的样本中，预测类别为1的比例】
特异度（specificity）:= 真阴性/(真阴性+假阳性) = 真阴性/(所有真阴性者)【用来评价检测真阴性的能力】=【换句话说，所有真实类别为0的样本中，预测类别为0的比例】

https://youtu.be/9sQygrFdwv0?t=881
召回率评价的是全不全。
对于样本不均衡的情况来说，准确率、召回率、精确率和F1-Score都不行了，这个时候需要用ROC和AUC指标进行评价。

精确率：精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。P(precision) = TP/(TP+FP)
召回率：召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。R(Recall) = TP/(TP+FN)
F-score。这是综合考虑Precision和Recall的调和值。

F-Score = (1+\beta ^2)\frac{precisionRecall}{\beta ^2precision+Recall}
当\beta = 1，叫做F1-Score，精确率和召回率都很重要，权重相同。当有些情况下，我们认为精确率更重要些，那就调整β的值小于1，如果我们认为召回率更重要些，那就调整β的值大于1。

灵敏度和召回率是不是一样的？——是的，刻画的是在所有真实为阳性样本中预测为阳性的比例

总结

评价一个模型，要计算出来这些指标：准确率accuracy、(精确率precision、召回率recall)、（灵敏度sensitivity、特异度specificity）、F-Score