您当前的位置:首页 > 美文分享

概率统计(概率和统计是一回事么?)

时间:2022-04-11 09:59:20

概率统计(概率和统计是一回事么?)

统计、概率傻傻分不清?其实从下图中就应该知道概率、统计是有区别的

本话题主要是为了后续讨论与理解最大似然估计(MLE)、最大后验概率估计(MAP)贝叶斯公式做基础。本篇我们只讨论概率与统计之间的区别。

为了更通俗的理解,先来讨论统计,为什么呢?因为概率可以理解为在统计基础上衍生出来的。


什么是统计(statistics)

先来看个问题:有一种动物,请问这是什么动物(答案唯一)?

这...没人能猜得对吧。我也猜不出来,即便是天王老子来了也猜不出来。加个条件,它一天24小时只干两件事(干饭、睡觉),请问这是什么动物?

咦,这不是你女朋友么?(开玩笑)

嘘,别瞎猜,要不然狗命不保。


那么再加些条件:四条腿、还会哼哼哼的叫,鼻子长长的,有的还可以当宠物。

嗯,模型基本可以确定了,对,就是他

我们仔细想想这个过程,你是怎么猜出它来的。

我们有一堆数据,动物、四条腿、鼻子(长长的)、叫声(哼哼哼)、行为(干饭、睡觉),通过判断与观察这些数据,大伙一致的认为并且确定这个模型是猪。

这个游戏和统计有什么关系呢?在实际的统计研究中,我们也是通过观察数据来初步推测模型的。

就像文章 建立回归模型的完整步骤 中提到的,我们通过数据的散点图走势分布来判断是否使用线性回归模型,当然通过数据还可以判断出其他分布模型:像指数分布、高斯分布、拉普拉斯分布。

当然,如果上述游戏的模型参数、数据量再给多点我们甚至可以研究归纳出:判定猪的品种模型,究竟是圈养猪呢还是松辽黑猪呢还是乌克兰小乳猪。

(此模型只做演示说明使用,并非真正的模型)

其中,y是猪的种类,x1为产地 ,x2为大小,x3为可爱程度...

再举一个更加实际的栗子:当我们去医院看病的时候,医生通过询问你的症状(饮食、不良行为....)来判断归纳(建立病症模型)出什么病,最后才对症下药。

以上案例都是建立在人们熟知的模型上去做判断,若是一种新的物种、病情呢?通过数据无法从已有模型中挑选出对应模型怎么办,这个时候就进入了统计的原始阶段,需要大量数据、案例做支撑,然后发明一个新的模型,不断演化直到成熟被公认。

一句话总结:统计是在已知数据的前提下,进行模型的归纳与推断。


什么是概率(probabilty)

概率研究的问题恰好与统计相反,概率是在已知模型的基础上去预测这个模型产生的结果(方差、均值等)。如:现在我们有一个已知模型(判断猪的种类模型)

其中,y是猪的种类,x1为产地,x2为大小 ,x3为可爱程度,....

故事线:现在有一个人在山间上发现一只猪,但又不确定是什么猪,万一是只野猪(凶猛)那就不好了,正巧他想起外甥是养猪协会的,他急忙给外甥打电话,并告知外甥这个猪的一些特征,balabala.....,外甥经过他多年悦猪无数的职场经验(脑海已模型自现),立马就判断出这只猪的品种,原来是只乌克兰小乳猪啊,很可爱不用担心,真是虚惊一场。

这个过程我们可以简化为:通过种类模型我们预测出来了符合条件的样本数据(猪的特征)属于哪一种猪【极大概率上】

注:对于已成熟的模型(已通过模型有效性检验:R方、F检验)预测结果在极大概率上是可靠的。

一句话总结:概率是在已知模型的基础上,对其他样本数据进行预测。


还记得在讨论回归话题时的这幅图么

在统计学里,任一现存的技术手段都是经历了统计与概率的考验才留下来,最终形成一个闭环(仅个人见解)。


最后借用专家的话来解释总结下:

Lary Wasserman 在《All of Statistics》的序言里有说过概率论和统计推断的区别:


大意:

统计学:根据手中信息,猜猜桶里有啥?(样本归纳总结出总体)

概率论:根据桶中信息,猜猜手里有啥?(总体对样本进行预测)

更多精彩内容请关注 公众号:数据与编程之美

模型 概率 统计 数据 判断

最新文章