概率论中的概率分布是什么？-3

大家好，欢迎来到IT知识分享网。

在我的概率系列介绍性文章中，我介绍了概率的数学符号、基本公理和法则，这些都是构建概率世界的基本元素。然而，概率是一门实用理论，概率分布就是概率打开真实世界大门的钥匙，同时现实世界也是用概率分布来表达自己的。

许多领域都使用概率分布，但很少有人解释它们是什么。所以我将在这篇文章中尝试解释它们是什么。

什么是概率分布？

回顾一下，随机变量是一个变量，其值是随机事件的结果。例如，某随机变量可以是掷骰子或抛硬币的结果。

概率分布是随机变量的所有可能结果及其相应的概率值的列表。

举个具体的例子，下面是一个公平的6面骰子的概率分布。

掷骰子的结果	1	2	3	4	5	6
概率	1/6	1/6	1/6	1/6	1/6	1/6

公平的六面骰子的概率分布

明确地说，这是一个的有限离散单变量概率分布的例子。这句话有点拗口，让我们试着把这句话拆开来理解。

离散这意味着：如果我挑选任何两个结果。就无法获得一个在两者之间的结果（微积分中连续的概念）。例如，如果我们认为1和2是掷六面骰子的结果，那么我就不能有介于两者之间的结果(例如，1.5)。在数学中，我们会说这个结果列表是可数的，但我们不要走定义和理解可数和不可数集合的判断方法。它变得很不好解释。你可能会预想到，当我们谈到连续概率分布时，两个数字之间就可以找到中间结果了。

单变量，意味着我们只有一个随机变量。相反，如果我们有一个以上的变量，那么我们就说我们有一个 多变量分布 。在我们有两个变量的特殊情况下，我们通常说这是一个 双变量分布 。

有限支持，这意味着结果的数量是有限的。支持度本质上是定义了概率分布的结果。因此，在我们的例子中，支持度是。1、2、3、4、5和6。由于这不是一个无限的数值，这意味着支持是有限的。

函数的介绍

我们为什么要讨论函数？

在上面掷六面骰子的例子中，只有6种可能的结果，所以，我们可以用表格写下整个概率分布。在许多情况下，可能结果的数量很庞大，因此用表格写下来会很无趣，另外，可能的结果数量可能是无限的，那我们该如何处理呢？用一个表格来来承载吧。

为了解决为每个分布写表格的问题，我们可以定义一个函数来代替。函数允许我们简洁地定义一个 概率分布 。

因此，我们首先定义一下什么是一般的函数，然后我们再来讨论用于概率分布的函数。

什么是函数？

在一个非常抽象的层面上，函数是接受一个输入并返回输出的box。在绝大多数情况下，函数实际上必须对输入做一些处理，才能使输出可以有用。

如何定义一个对我们有用的函数呢？假设这个函数接收一个数字作为输入，在输入的数字上加2，然后，返回的数字作为输出。从图形上看，我们的函数（作为一个box）看起来像这样。

函数的抽象描述是一个接受输入并返回输出的方框。在本例中，该函数在输入的基础上增加了2。

因此，如果我们的输入是5，我们的函数将在5上加2，并返回输出5+2=7。

函数的符号化

现在，为每个函数画一个像上面的图是很无聊的一件事，我们如何才能简化这个过程，当然，我们用符号/字母来表示图表，使其更加简洁。我们不写 “输入 “一词，而是用 “x”，不写 “函数 “一词，而是写 “f”，不写 “输出 “一词，而是写 “f(x)”。因此，上述图表现在可以写成：

我们的函数是用符号而不是文字来写的，以使之更加简洁

这样做很简洁，但是，我们仍然有一个问题，那就是我们必须画一个图来理解这个函数在做什么。我们可是数学家，我们不想因为画一个方框而浪费宝贵的精力，所以我们想出了一个更好的写函数的方法，我们不需要画任何图。我们可以在数学上将我们的函数定义为：

现在我们的函数已经写好了，不需要再画箭头和方框。

这相当于上图，因为我们可以明确看到函数的输入是x，我们已经调用了我们的函数f，我们知道该函数在输入上加了2，并返回x+2作为输出。

值得注意的是，函数和输入的字母选择可以自定义。我可以定义 “a “是输入，我可以命名函数 “add_two”，我的函数就变成:

同一函数的另一种写法，而这个函数完全等同于上面的函数。

我们讲了这么多，有什么收益呢。我们可以通过构造函数，可以构造一个逻辑实现转换输入到输出。有了函数，我们就知道如果输入是或者输入是后，结果是什么，我们不需要像前面那样写下一个表格。

还要强调一点，我们要使用的示例函数只能以数字作为输入和输出。然而，广义的函数可以接受任何你选择的任何东西作为输入，并输出任何你想要的结果（甚至什么都不输出）。例如，我们可以用编程语言写一个函数，将一串文本作为输入，输出该串的第一个字母。下面是这个函数在Python编程语言中的一个例子：

def first_letter(my_word): return my_word[0]

用图形表示函数

函数的主要好处之一是让我们实现一个输入与输出之间的逻辑，我们也可以利用逻辑关系来实现函数可视化。让我们继续讨论我们的例子。从图形上看，它看起来像这样。

我们的函数的图形表示法

我们可以沿着下面的横坐标，其中的任一点作为我们的输入数字，左侧纵轴上的相应数字是输出值。例如，我们可以看到代表函数的蓝线穿过处的垂直（白色）线与水平（白色）线相交的点。在这个点上，。

函数的参数

函数最重要的特征之一是参数。参数是你在函数里面找到的数字。在我们的例子中，，数字 “2 “是一个参数，因为我们需要它来定义这个函数。

参数之所以重要，是因为它们在决定输出的结果。例如，让我们定义另一个函数。函数和我们的新函数之间的唯一区别是参数的值（我们现在有一个 “3 “而不是 “2”）。这种差异意味着，对于相同的输入，我们得到的输出是完全不同的。让我们用图形来看看这个问题:

函数和之间的区别

参数可以说是概率(分布)函数最重要的特征，因为它们决定了函数的输出，告诉我们随机过程中某些结果的可能性。在数据科学中出现的问题中，我们试图估计的往往是参数，我以前写过2种方法，我们可以用它们来估计，[[最大似然估计]]和[[贝叶斯]]。

现在我们准备用函数的方式来讨论概率分布。

概率质量函数：离散的概率分布

当我们用一个概率函数来描述一个离散的概率分布时，我们称它为概率质量函数（通常缩写为pmf）。

记得在关于概率概念的第一篇介绍性文章中，一个随机变量（我们用大写字母表示）取一个值（用小写字母x表示）的概率被写成。因此，如果我们用掷骰子作为随机变量的例子，我们可以把骰子落在数字3上的概率写成。

一个概率质量函数，我们称之为 “”，它返回一个结果的概率。因此，概率质量函数被写成。

我知道这有点简练和数学化，按照函数语言来描述为：概率质量函数 “”只是返回事件x的概率的函数。

所以让我们回到公平的6面骰子的例子。概率质量函数，只是返回事件结果的概率。因此，掷出3的概率是。就这样简单。

由于概率质量函数返回概率，它必须遵守我在上一篇文章中描述的概率的规则与公理。也就是说，概率质量函数输出的值在0和1之间(包括1)，而且所有结果的概率质量函数(pmf)之和等于1。在数学上，我们可以把这两个条件写成:

所以我们已经看到，我们可以把离散概率分布写成表格和函数。我们还可以用图形来表示掷骰子的例子。

一个公平的六面骰子的结果的概率分布的图形表示

离散概率分布的例子：伯努利分布

有些概率分布使用的频率很高，以至于人们对它们进行了广泛的研究，并为其命名。一个经常出现的离散分布被称为伯努利分布。它描述了一个有两种可能结果的过程的概率分布。这方面的例子是抛硬币，其结果是正面或反面。

伯努利分布的概率质量函数是：

这里，代表事件结果，取值为1或0。所以我们自定义，正面=1，反面=0。因此，在一个公平的硬币中，正面或反面的概率是0.5，我们可以设置p=0.5。

更近一步，我们需要明确包含在概率质量函数中的参数，所以我们这样写：

注意，我们用分号把输入变量和参数分开。

概率密度函数：连续概率分布

有些现实情况下，我们关注的是具有连续结果的随机变量的概率。例如，从人口中随机抽取的成年人的身高，或者出租车司机在下一份工作之前需要等待的时间。无论是身高还是等待时间都是连续结果，那么，随机变量最好匹配连续的概率分布来描述。

当我们用一个概率函数来描述一个连续概率分布时，我们称之为概率密度函数（通常缩写为pdf）。

概率密度函数在概念上要比概率质量函数稍微复杂一些，但别担心，我们会有办法的。先从一个连续概率分布的例子入手，然后再讨论概念本身是最容易理解。

连续概率分布的例子：正态分布

大家都知道，正态分布是所有概率和统计学中最常见的分布。它这么常见的主要原因之一是由于中心极限定理。我们不打算在这篇文章中讨论它，但这里有一篇很好的文章，作者是

“数据科学家唯一需要知道的定理 “文章，解释了该定理是什么以及它与正态分布的关系。

正态分布的概率密度函数被定义为：

其中参数（即分号后面的符号）代表人口的平均数μ（分布中心所在的点）和标准差σ（分布的分散程度）。

如果我们把平均值设为零，标准差设为1 ，那么我们得到的分布图如下:

正态分布的平均值=0，标准差等于1

正态分布是一个具有 无限支持 的连续单变量概率分布的例子。我所说的无限支持，是指我们可以计算出负无穷和正无穷之间所有结果的概率密度函数的值。在数学中，我们有时会说它在整个R有定义。

连续概率分布的属性

首先，要注意的是纵轴上的数字从零开始，然后增长趋势。这是一个概率密度函数必须遵守的规则。概率密度函数的任何输出值都大于或等于零。用数学术语来说，我们会说输出是非负的，或者将其数学地写为：

然而，与概率质量函数不同，概率密度函数的输出不是一个概率值。这是一个最关键的区别，我一直犯了忘记的错误。

为了从概率密度函数中得到概率，我们需要找到曲线下的面积。因此，从我们的例子中，平均数=3，标准差=1的分布中，我们可以通过找到下图中的面积来找到结果在0和1之间的概率：

橙色区域是结果在0和1之间的概率。

在数学上，我们将其写为：

公式可以理解为”0和1之间的概率密度函数的积分（在左侧）等于随机变量的结果在0和1之间的概率（在右侧）_”。

假设我们都了解积分，因为我还没有明确涉及积分以及它们是如何工作的，后续我们会对积分做一个简单的概念介绍，但现在我没有教你如何计算它们。如果你不了解它们，那么你目前需要知道的是，它是一种寻找曲线下面积的数学方法，在这种情况下，它给了我们结果的概率。也许我需要写一个涵盖微积分入门的文章。

我们现在已经看到了概率密度函数的另一个属性。也就是说，两个结果之间的概率，比方说’a’和’b’，是这两点之间的概率密度函数的积分（这相当于找到概率密度函数在’a’和’b’之间产生的曲线下的面积）。在数学上，这就是：

记住，我们仍然要遵循概率分布的规则，即所有可能的结果之和等于1的规则。如果我们把范围从 “负无穷大 “一直设置到 “正无穷大”，我们就可以涵盖所有可能的值。因此，以下情况必须为真，该函数才是概率密度函数:

这就是说，负无穷大和正无穷大之间的曲线下的面积等于1。

关于连续概率分布，需要知道的一件重要的事情（也是在概念上可能非常奇怪的事情）是，随机变量等于特定结果的概率是0。例如，如果我们试图得到结果等于数字2的概率，我们会得到:

这在概念上可能看起来很奇怪，但如果你了解微积分，那么它应该更有意义。我不打算在这篇文章中介绍微积分。相反，我想让你从这个事实中得到的是，我们只能谈论发生在两个数值之间的概率。或者我们可以问一个结果大于或小于一个特定值的概率。我们不能问一个结果等于一个特定值的概率。

有些读者可能已经注意到，我使用了 “小于（<）”和 “大于（>）”符号，而不是 “小于或等于（≤）”和 “大于或等于（≥）”符号。对于连续概率分布来说，这实际上并不重要，因为它们是一样的。明确地说，我的意思是：

因此，随机变量在a和b之间取值的概率与它在a和b之间取值的概率相同。

参数的重要性

我们看到，参数值可以改变一个函数的输出值，这与概率分布没有区别。

两个具有不同参数的正态分布给出了完全不同的概率结果。

在上图中，我们绘制了两个正态分布的概率密度函数。蓝色分布的参数值为和，而红色分布的参数值为和。

现在可以更清楚地看到，为什么使用错误的参数值可以得到与你可能期望的大不相同的结果。

总结

哇! 让我们总结一下主要内容。

概率分布是一个事件结果及其相关概率的列表。
我们可以用表格来写小的分布，但用函数来总结大的分布更方便。
离散概率分布的函数被称为概率质量函数。
连续概率分布的函数被称为概率密度函数。
概率分布的函数仍然必须遵守概率规则
概率质量函数的输出是概率，而概率密度函数产生的曲线下的面积代表概率。
概率函数的参数在定义随机变量的结果的概率方面起着核心作用。

我最初想在这篇文章中介绍多变量分布，但有点长，所以我们将在以后的文章中介绍它。

我们继续介绍林林种种的概率分布，以及他们之间的关系。

感谢你阅读到这里。我希望这篇文章对你有用，你能从中学习到一些东西。请随时留下评论、建议和问题。

求个关注：

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/182376.html