您当前的位置：首页 > 美文分享

概率统计（概率和统计是一回事么？）

时间：2022-04-11 09:59:20

概率统计（概率和统计是一回事么？）

统计、概率傻傻分不清？其实从下图中就应该知道概率、统计是有区别的

本话题主要是为了后续讨论与理解最大似然估计（MLE）、最大后验概率估计（MAP）贝叶斯公式做基础。本篇我们只讨论概率与统计之间的区别。

为了更通俗的理解，先来讨论统计，为什么呢？因为概率可以理解为在统计基础上衍生出来的。

什么是统计（statistics）

先来看个问题：有一种动物，请问这是什么动物（答案唯一）？

这...没人能猜得对吧。我也猜不出来，即便是天王老子来了也猜不出来。加个条件，它一天24小时只干两件事（干饭、睡觉），请问这是什么动物？

咦，这不是你女朋友么？(开玩笑)

嘘，别瞎猜，要不然狗命不保。

那么再加些条件：四条腿、还会哼哼哼的叫，鼻子长长的，有的还可以当宠物。

嗯，模型基本可以确定了，对，就是他

我们仔细想想这个过程，你是怎么猜出它来的。

我们有一堆数据，动物、四条腿、鼻子（长长的）、叫声（哼哼哼）、行为（干饭、睡觉），通过判断与观察这些数据，大伙一致的认为并且确定这个模型是猪。

这个游戏和统计有什么关系呢？在实际的统计研究中，我们也是通过观察数据来初步推测模型的。

就像文章建立回归模型的完整步骤中提到的，我们通过数据的散点图走势分布来判断是否使用线性回归模型，当然通过数据还可以判断出其他分布模型：像指数分布、高斯分布、拉普拉斯分布。

当然，如果上述游戏的模型参数、数据量再给多点我们甚至可以研究归纳出：判定猪的品种模型，究竟是圈养猪呢还是松辽黑猪呢还是乌克兰小乳猪。

（此模型只做演示说明使用，并非真正的模型）

其中，y是猪的种类，x1为产地，x2为大小，x3为可爱程度...

再举一个更加实际的栗子：当我们去医院看病的时候，医生通过询问你的症状（饮食、不良行为....）来判断归纳（建立病症模型）出什么病，最后才对症下药。

以上案例都是建立在人们熟知的模型上去做判断，若是一种新的物种、病情呢？通过数据无法从已有模型中挑选出对应模型怎么办，这个时候就进入了统计的原始阶段，需要大量数据、案例做支撑，然后发明一个新的模型，不断演化直到成熟被公认。

一句话总结：统计是在已知数据的前提下，进行模型的归纳与推断。

什么是概率（probabilty）

概率研究的问题恰好与统计相反，概率是在已知模型的基础上去预测这个模型产生的结果（方差、均值等）。如：现在我们有一个已知模型（判断猪的种类模型）

其中，y是猪的种类，x1为产地，x2为大小，x3为可爱程度，....

故事线：现在有一个人在山间上发现一只猪，但又不确定是什么猪，万一是只野猪（凶猛）那就不好了，正巧他想起外甥是养猪协会的，他急忙给外甥打电话，并告知外甥这个猪的一些特征，balabala.....,外甥经过他多年悦猪无数的职场经验（脑海已模型自现），立马就判断出这只猪的品种，原来是只乌克兰小乳猪啊，很可爱不用担心，真是虚惊一场。

这个过程我们可以简化为：通过种类模型我们预测出来了符合条件的样本数据（猪的特征）属于哪一种猪【极大概率上】

注：对于已成熟的模型（已通过模型有效性检验：R方、F检验）预测结果在极大概率上是可靠的。

一句话总结：概率是在已知模型的基础上，对其他样本数据进行预测。

还记得在讨论回归话题时的这幅图么

在统计学里，任一现存的技术手段都是经历了统计与概率的考验才留下来，最终形成一个闭环（仅个人见解）。

最后借用专家的话来解释总结下：

Lary Wasserman 在《All of Statistics》的序言里有说过概率论和统计推断的区别：

大意：

统计学：根据手中信息，猜猜桶里有啥？(样本归纳总结出总体)

概率论：根据桶中信息，猜猜手里有啥？(总体对样本进行预测)

更多精彩内容请关注公众号：数据与编程之美

模型概率统计数据判断

|| 相关文章