概率论基础 —— 9. 协方差

概率论基础 —— 9. 协方差这是一个非常重要的知识 我这倒不是说考试会如何关照这个知识点

大家好,欢迎来到IT知识分享网。

这是一个非常重要的知识,我这倒不是说考试会如何关照这个知识点。而是说如果你想进一步深入数据科学的领域,就会在很多论文、模型里发现大量用于评判模型和分析样本关联度特征时,会经常用到协方差的概念。这也是为什么我在上一章节里提到协方差后,在这一章里还会做一点补充说明的原因。

关于协方差的一个实际生活例子

首先回顾一下协方差的公式

C o v ( X , Y ) = ( X − E ( X ) ) ( Y − E ( Y ) ) Cov(X, Y) = (X – E(X))(Y – E(Y)) Cov(X,Y)=(XE(X))(YE(Y))

及其相关系数

ρ = C o v ( X , Y ) D ( X ) D ( Y ) \rho = \frac{Cov(X, Y)}{ \sqrt{D(X)} \sqrt{D(Y)}} ρ=D(X)
D(Y)
Cov(X,Y)

以及数据关联特征

在这里插入图片描述

我们这里举个例子,说明协方差到底是来做什么的。

比方说,在银行风控系统中,抵押人可能有这么一些数据指标,比如说年龄、性别、学历、抵押资产(固定资产、现金、证券期票、跟其他债务人的借据等),你作为一个银行的工作人员,在确保抵押人的资料真实可信的前提下,你如何确定放贷给某个人的资金是安全的,或者大概率是安全的?

你可能需要一些资料帮助你做出这个判断。比如说银行历史上违约情况进行分析。那么从历史上,贷款人的学历,有博士、硕士、本科、高中以及其他,月收入有>50000,20000 < X < 50000, 10000 < X < 20000等多个不同档的数据。

比方说,你 令 X = 学 历 X = 学历 X=, 令 Y = 违 约 率 Y = 违约率 Y=。那么我们可以通过协方差计算每一个样本的情况:

C o v ( X , Y ) = [ X − X ˉ ] [ Y − Y ˉ ] Cov(X, Y) = [X – \bar{X}] [Y – \bar{Y}] Cov(X,Y)=[XXˉ][YYˉ]

然后把样本计算的结果加起来, C o v 1 + C o v 2 + ⋯ + C o v n Cov_1 + Cov_2 + \cdots + Cov_n Cov1+Cov2++Covn 这样可以得到一个值,比如K。

如果 K > 0 K > 0 K>0, 说明样本之间成正相关;
如果 K < 0 K < 0 K<0,说明样本之间成负相关;
如果 K ≈ 0 K \approx 0 K0,说明样本之间不相关。

这样,对历史样本进行统计后,你可能就会得到这样一个知识:

如果贷款人,有高学历、高收入,高的抵押资产,那么他的违约概率是极低的,而低收入、低学历、低资产的贷款人,违约风险极高。这样,在你审批的时候,就能通过这些条件快速的筛选合适的贷款人,尽最大可能性避免贷款出现违约风险。

一些协方差用到的推广公式

C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y, X) Cov(X,Y)=Cov(Y,X)

C o v ( X , X ) = D ( X ) Cov(X, X) = D(X) Cov(X,X)=D(X)

C o v ( X , C ) = 0 Cov(X, C) = 0 Cov(X,C)=0

C o v ( a X , b Y ) = a b ⋅ C o v ( X , Y ) Cov(aX, bY) = ab \cdot Cov(X, Y) Cov(aX,bY)=abCov(X,Y)

C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2 , Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E(XY)−E(X)E(Y) Cov(X,Y)=E(XY)E(X)E(Y)

做点题吧

设X, Y为随机变量,D(X) = 25, D(Y) = 16,Cov(X, Y) = 8,则 ρ = ? \rho = ? ρ=

解:

ρ = C o v ( X , Y ) D ( X ) D ( Y ) = 8 25 16 = 2 5 \rho = \frac{Cov(X, Y)}{\sqrt{D(X) \sqrt{D(Y)}}} = \frac{8}{\sqrt{25} \sqrt{16}} = \frac{2}{5} ρ=D(X)D(Y)

Cov(X,Y)
=
25
16
8
=
52


已知二元离散型随机变量 ( X , Y ) (X, Y) (X,Y) 的联合分布如下:

X\Y -1 1 2
-1 0.1 0.2 0.3
2 0.2 0.1 0.1

解(1) 根据我们之前对于离散型二维随机变量的知识点,可以知道

X -1 2
P 0.6 0.4
Y -1 1 2
P 0.3 0.3 0.4

解(2) X和Y的相关系数,最重要的就是求解出D和E分别是多少。解题方式有两种,第一种是一个一个的算,但这样比较耗费时间,第二种就是直接带入公式求解,我们选择第二种。

相关系数方程是 ρ = C o v ( X , Y ) D ( X ) D ( Y ) \rho = \frac{Cov(X, Y)}{ \sqrt{D(X)} \sqrt{D(Y)}} ρ=D(X)
D(Y)
Cov(X,Y)

从上表,我们可以直接得到:

E ( X ) = − 1 × 0.6 + 2 × 0.4 = 0.2 E(X) = -1 \times 0.6 + 2 \times 0.4 = 0.2 E(X)=1×0.6+2×0.4=0.2
E ( X 2 ) = ( − 1 ) 2 × 0.6 + 2 2 × 0.4 = 2.2 E(X^2) = (-1)^2 \times 0.6 + 2^2 \times 0.4 = 2.2 E(X2)=(1)2×0.6+22×0.4=2.2
D ( X ) = E ( X 2 ) − E 2 ( X ) = 2.2 − 0.04 = 2.16 D(X) = E(X^2) – E^2(X) = 2.2 – 0.04 = 2.16 D(X)=E(X2)E2(X)=2.20.04=2.16

然后对于Y来说,同样可以:

E ( Y ) = − 1 × 0.3 + 1 × 0.3 + 2 × 0.4 = 0.8 E(Y) = -1 \times 0.3 + 1 \times 0.3 + 2 \times 0.4 = 0.8 E(Y)=1×0.3+1×0.3+2×0.4=0.8
E ( Y 2 ) = ( − 1 ) 2 × 0.3 + 1 2 × 0.3 + 2 2 × 0.4 = 2.2 E(Y^2) = (-1)^2 \times 0.3 + 1^2 \times 0.3 + 2^2 \times 0.4 = 2.2 E(Y2)=(1)2×0.3+12×0.3+22×0.4=2.2
D ( Y ) = E ( Y 2 ) − E 2 ( Y ) = 2.2 − 0.64 = 1.56 D(Y) = E(Y^2) – E^2(Y) = 2.2 – 0.64 = 1.56 D(Y)=E(Y2)E2(Y)=2.20.64=1.56

此外:

C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X, Y) = E(XY) – E(X)E(Y) Cov(X,Y)=E(XY)E(X)E(Y) 而对于E(XY)来说,你可以令XY = Z,所以对于表来说,就可以变成

Z Z(-1, -1) Z(-1, 1) Z(-1,2) Z(2, -1) Z(2, 1) Z(2, 2)
P 0.1 0.2 0.3 0.2 0.1 0.1

由于Z = X Y,所以

E(Z) = -0.5

那么

ρ = − 05 − 0.2 × 0.8 2.16 1.56 \rho = \frac{-05 – 0.2 \times 0.8}{\sqrt{2.16} \sqrt{1.56} } ρ=2.16
1.56
050.2×0.8

用计算器算一算,就可以得到:-0.3595

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/146876.html

(0)
上一篇 2025-04-11 18:33
下一篇 2025-04-11 18:45

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信