大数据:分位数回归

大数据:分位数回归什么是分位数 分位数 Quantile 亦称分位点 是指将一个随机变量的概率分布范围分为几个等份的数值点 常用的有中位数 即二分位数 四分位由 3 个部分组成 第 25 50 和 75 个百分位 常用于箱形图 和百分位数等

大家好,欢迎来到IT知识分享网。

大数据:分位数回归

什么是分位数?

分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位由3个部分组成(第25、50和75个百分位,常用于箱形图)和百分位数等。

分位数回归(Quantile Regression)

在介绍分位数回归之前,先重新说一下回归分析,我们之前介绍了线性回归、多项式回归等等,基本上,都是假定一个函数,然后让函数尽可能拟合训练数据,确定函数的未知参数。尽可能拟合训练数据,一般是通过最小化均方误差(MSE)来进行:

大数据:分位数回归

得到的y本质上就是一个期望。

根据上面的分析,我们可以得到一个结论:我们前面所有回归分析得到的函数,本质上就是一个条件期望函数,在x等于某个值的条件下,根据数据,求y的期望。

分位数回归提出的原因,就是因为不希望仅仅是研究y的期望,而是希望能探索y的完整分布状况,或者说可能在某些情况下我们更希望了解y的某个分位数。

假如现在我们有一个如图分布的数据,对其进行普通的回归分析,得到:

大数据:分位数回归

从拟合的曲线我们就可以看出问题了,原数据随着x增大,y的分布范围越来越大。

即使y的分布变化了,平均来说y还是以同样的斜率稳定上升,当我们使用0.9分位数回归,重新得出新函数图像:

大数据:分位数回归

比起普通的回归分析,就能进一步显示出y的变化幅度其实是增大了。所谓的0.9分位数回归,就是希望回归曲线之下能够包含90%的数据点(y),这也是分位数的概念,分位数回归是把分位数的概念融入到普通的线性回归而已。

仅仅得到0.9分位数回归曲线是不够的,进一步的我们可以画出不同的分位数回归曲线,这样才能能更加明显地反映出,随着x的增大,y的不同范围的数据是不同程度地变化的,而这个结论通过以前的回归分析是无法得到的,这就是分位数回归的作用。

大数据:分位数回归

分位数回归本质上是一个加权最小二乘法,给不同的y值不同的权重,最小化以下函数来获得

大数据:分位数回归

分位数回归是加权最小二乘法

比如现在有一个数据集是1到10这十个整数,我们希望求数据集的0.7分位数q。所有大于q的数都被赋上权重0.7,小于q的赋予权重0.3,不难验证出最后 q = 7。

分位数回归与最小二乘回归的区别

标准最小二乘回归模型仅对估计值的条件均值进行建模,并且计算成本较低。 相比之下,分位数回归最常用于对估计值的特定条件分位数进行建模。 与最小二乘回归不同,分位数回归不假设估计值具有特定的参数分布,也不假设估计值具有恒定方差。

大数据:分位数回归

分位数回归与线性回归区别

分位数回归,不能说是一种回归模型,而是一类回归模型,或者说是一种改进思想,我们可以把它应用到线性回归、多项式回归、核回归等等,最根本的就是把损失函数从最小二乘法改成加权最小二乘法,通过不同的分位数得到不同的结果,再根据结果进行分析。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/185244.html

(0)
上一篇 2025-08-07 10:26
下一篇 2025-08-07 10:33

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信