概率密度函数、概率分布函数、常见概率分布

大家好，欢迎来到IT知识分享网。

1. 概率函数

2. 概率分布

这么一说你就应该明白概率分布是个什么鬼了吧。

3. 分布函数

说完概率分布，就该说说分布函数了。这个分布函数又是个简化版的东西！我真的很讨厌我们的教材中老是故弄玄虚，卖弄概念！你就老老实实的写成”概率分布函数“，让我们这些笨学生好理解一些不行吗？

概率函数和概率分布函数就像是一个硬币的两面，它们都只是描述概率的不同手段！

4. 概率密度函数

概率密度函数是概率论中的核心概念之一，用于描述连续型随机变量所服从的概率分布。

4.1 从随机事件说起

4.2 整数集与实数集

高中时我们学过集合的概念，并且知道整数集是z，实数集是R。对于有限集，可以统计集合中元素的数量即集合的基数（cardinal number，也称为集合的势cardinality）。对于无限集，元素的个数显然是无穷大，但是，都是无穷大，能不能分个三六九等呢？

虽然当x趋向于正无穷的时候，x和exp(x)都是无穷大，但它们是有级别的，在exp(x)面前，x是小巫见老巫。

同样的，对于整数集和实数集，也是有级别大小的。任意两个整数之间，如1与2之间，都密密麻麻的分布着无穷多个实数，而且，只要两个实数不相等，不管它们之间有多靠近，如0.0000001和0.0000002，在它们之间还有无穷多个实数。在数轴上，整数是离散的，而实数则是连续的，密密麻麻的布满整个数轴。因此，实数集的元素个数显然比整数要高一个级别。

4.3 随机变量

变量是我们再熟悉不过的概念，它是指一个变化的量，可以取各种不同的值。随机变量可以看做是关联了概率值的变量，即变量取每个值有一定的概率。例如，你买彩票，最后的中奖金额x就是一个随机变量，它的取值有3种情况，以0.9的概率中0元，0.09的概率中100元，0.01的概率中1000元。变量的取值来自一个集合，可以是有限集，也可以是无限集。对于无限集，可以是离散的，也可以是连续的，前者对应于整数集，后者对应于实数集。

4.3.1 离散型随机变量

4.3.2 连续型随机变量

把分布表推广到无限情况，就可以得到连续型随机变量的概率密度函数。此时，随机变量取每个具体的值的概率为0，但在落在每一点处的概率是有相对大小的，描述这个概念的，就是概率密度函数。你可以把这个想象成一个实心物体，在每一点处质量为0，但是有密度，即有相对质量大小。

在概率论和统计学中，拉普拉斯是一种连续概率分布。由于它可以看做是俩个不同位置的指数分布背靠背拼在一起，所以它也叫做双指数分布。如果随机变量的概率密度函数分布为：

那么他就是拉普拉斯分布。u为位置参数，b>0是尺度参数。与正态分布相比，正态分布是用相对于u平均值的差的平方来表示，而拉普拉斯概率密度用相对于差的绝对值来表示。因此，拉普拉斯的尾部比正态分布更加平坦。

概率密度函数用数学公式表示就是一个定积分的函数，定积分在数学中是用来求面积的，而在这里，你就把概率表示为面积即可！

左边是F(x)连续型随机变量分布函数画出的图形，右边是f(x)连续型随机变量的概率密度函数画出的图像，它们之间的关系就是，概率密度函数是分布函数的导函数。

两张图一对比，你就会发现，如果用右图中的面积来表示概率，利用图形就能很清楚的看出，哪些取值的概率更大！这样看起来是不是特别直观，特别爽！！所以，我们在表示连续型随机变量的概率时，用f(x)概率密度函数来表示，是非常好的！

4.4 期望E(X)与方差Var(X)

随机变量(Random Variable)X是一个映射，把随机试验的结果与实数建立起了一一对应的关系。而期望与方差是随机变量的两个重要的数字特这。

期望(Expectation, or expected value)是度量一个随机变量取值的集中位置或平均水平的最基本的数字特征；

4.4.1 期望和方差的运算性质

4.4.1.1 期望运算性质

4.4.1.2 方差的运算性质

4.4.1.3 期望与方差的联系

4.4.2 协方差

4.4.2.1 协方差的运算性质

4.4.3 相关系数

4.4.3.1 定义

4.4.3.2 性质

5. 常见概率分布

5.1 均匀分布（Uniform Distribution）

5.2 伯努利分布（Bernoulli Distribution）

5.3 二项分布（Binomial Distribution）

从定义可以看出，伯努利分布是二项分布在n=1时的特例

5.4 负二项分布（Negative Binomial Distribution）

5.5 几何分布（Geometric Distribution）

假定我们有一系列伯努利试验，其中每一个的成功概率为 $p$ ，失败概率为 $q = 1 - p$ 。在获得一次成功前要进行多次试验？
注意，这里的随机变量的概率分布就是一种几何分布。具体如下：

几何分布的概率分布图如下，见之会有更形象地认知。

为什么单独把几何分布和二项分布单独列出，一方面其代表的概率试验的普适性，另一方面其期望和方差都是有特殊技巧。

其实有意思的是，这里面的求解过程；但是本文不具体涉及了。因为像几何分布和二项分布这种可能要多写几章，当然是否连续写就不知道了。本着实用主义来。
一般简单地肯定在前面讲，复杂一些得也更有意思一些的肯定是在后面，比如二项分布明显就在几何分布后面了。

5.6 超几何分布（Hypergeometric Distibution）

5.7 正态/高斯分布 (Normal / Gaussian Distribution)

正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数，且对它的概率分布一无所知，通常会假设它服从正态分布。有两个原因支持这一选择：

建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明，多个独立随机变量的和近似正态分布。
在具有相同方差的所有可能的概率分布中，正态分布的熵最大（即不确定性最大）。

5.7.1 一维正态分布

5.7.2 多维正态分布

5.8 拉普拉斯分布

5.9 泊松分布（Poisson Distribution）

5.10 指数分布

5.11 伽马分布

5.12 贝塔分布

5.13 狄拉克分布

5.14 多项式分布与狄里克雷分布

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个，如果现在还是做n次试验，只不过每次试验的结果可以有多m个，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项式分布。

5.15 混合概率分布

5.16 总结

6 独立同分布 independent and identically distributed

独立同分布（independent and identically distributed，i.i.d.）在概率统计理论中，指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布。

如果随机变量 $X_1$ 和 $X_2$ 独立，是指 $X_1$ 的取值不影响 $X_2$ 的取值， $X_2$ 的取值也不影响 $X_1$ 的取值且随机变量 $X_1$ 和 $X_2$ 服从同一分布，这意味着 $X_1$ 和 $X_2$ 具有相同的分布形状和相同的分布参数，对离随机变量具有相同的分布律，对连续随机变量具有相同的概率密度函数，有着相同的分布函数，相同的期望、方差。

示例——抛骰子

独立

每次抽样之间是没有关系的，不会相互影响。

就像抛骰子每次抛到几就是几这就是独立的，但如果要两次抛的和大于8，其余的不算，那么第一次抛和第二次抛就不独立了，因为第二次抛的时候结果是和第一次相关的。

同分布

每次抽样，样本都服从同样的一个分布。

抛骰子每次得到任意点数的概率都是1/6，这就是同分布的。但如果第一次抛一个6面的色子，第二次抛一个正12面体的色子，就不再是同分布了。

为什么需要满足i.i.d.假设？

机器学习是利用当前获取到的信息（或数据）进行训练学习，用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上，采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性。

为什么要有总体代表性？我们要从已有的数据（经验）中总结出规律来对未知数据做决策，如果获取训练数据是不具有总体代表性的，就是特例的情况，那规律就会总结得不好或是错误，因为这些规律是由个例推算的，不具有推广的效果。

通过i.i.d.假设，就可以大大减小训练样本中个例的情形。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/117068.html