大家好,欢迎来到IT知识分享网。
在归因分析中,我们一般都需要计算出每个因子的贡献度是多少,比如产品DAU上升,对年龄段维度进行拆解,看是不同年龄段的用户对DAU上升的贡献度是多少,一般根据指标的类型,计算贡献度的方法也不一样,下面就列出一些常见的归因分析贡献度的计算方法。
目录
2.5、加法-加权占比法:M=A+B+C(纵向对比,分解维度)
2.7、mdrca法:Multi-Dimensional Root Cause Analysis
1、指标类型
指标类型一般可以直接分为两类,原子指标和复合指标,原子指标就是DAU、GMV这种单值,不依赖其他变量独立统计的指标。复合指标是在原子指标上进行数学计算加工,需要通过两个或多个变量做除法计算的指标,比如购买率=购买人数/浏览商品人数。
2、贡献度计算
2.1、替代法:A/B或者A*B*C类型指标
2.1.1、连环替代法
公式定义:
优势&局限性:
优势:通过上面的拆解可以发现,该方法满足所有下级指标的波动之和等于核心指标的波动,使得波动可以用瀑布图完美呈现。
局限:
● 贡献值的大小与替换顺序强相关,甚至会因为替换顺序的改变影响贡献值的排序结果;虽然理论上可以通过数量指标-质量指标-价值指标的顺序来尽量保证结果的可靠性,但对于大部分产品用户而言并不一定清楚了解内在逻辑并如此配置,会导致结论严谨性受损。
● 无法保证下级指标的贡献度在[-100%,100%]的范围,业务解释性较差
2.1.2、控制替代法
公式定义
优势&局限性:
● 替换顺序的影响被消除,无论先替换哪个指标,因子贡献值的组合唯一。
● 每个因子的贡献值均落在[-100%,100%]的范围,业务解释性更强。
● 无法保证各指标影响之和为指标本身偏差。
2.2、加法-直接拆解:M=A+B+C
公式定义
1、基期
,本期
,差额=
2、计算不同因素单独变动带来的影响数:如因素带来的变动
3、总变动
4、确定每个因素的影响占比:
GMV异动诊断 |
总GMV |
商品1 |
商品2 |
当前 (A) |
20000 |
10000 |
10000 |
基期 (B) |
18000 |
9500 |
8500 |
DIFF(A-B) |
2000 |
500 |
1500 |
贡献度 |
/ |
25% |
75% |
2.3、乘法-log转化:M=A*B*C
公式定义:
1、基期
,本期
,其中
2、对
取对数可得
3、因为
,所以上述公式抵消后可得:
4、
2.4、超均贡献计算法:原子指标
超均贡献度的提出是为解决原子指标单看变化的绝对量级(偏移量、偏移量占比)和变化的相对快慢(波动率)导致的不准确问题:
- 用变化的绝对量级进行根因定位:会导致量级较大的维度因子长期排在前列,可能无法识别非头部因子带来的影响。
- 用变化的相对快慢进行根因定位:会导致量级较小但波动剧烈的因子排在前列,忽略了量级影响。
超均贡献度提供了一个综合变化量和波动率的量化依据,用于衡量维度因子对指标整体波动的贡献占比,较单独查看波动率和偏移量数值而言,综合两方面因素更为科学准确。
贡献度详细解释如下:
举个例子:
1、超均贡献值:
2、超均贡献度:
超均贡献度的解释性
超均贡献度可以理解为“因子波动与指标值(均值)波动差异的相对大小”,超均贡献度越大,说明因子的变化偏离均值变化越大,越有可能是根因。
指标波动有上升或下降,因此贡献度也有正和负之分,全部维度因子贡献度加总约为0%。在查看原因时,更关注与指标值同向变化的维度因子。
- 当指标波动上涨时,例如指标波动率为 +20%,正向贡献较大的因子将会排在头部,如TOP1影响因子很可能为贡献度>30%的某因子。
- 当指标波动下降时,例如指标波动率为 -20%,负向贡献较大的因子将会排在头部,如TOP1维度因子很可能为贡献度<-30%的某因子。
但是,超均贡献度主要的意义还是在于(排序)定位因子,数字本身实际的解释性还有待加强。
2.5、加法-加权占比法:M=A+B+C(纵向对比,分解维度)
基本逻辑:逻辑与绝对值指标归因类似,但是要考虑维度权重。
1、基本逻辑:逻辑与绝对值指标归因类似,但是要考虑维度权重
2、计算每个子维度的加权本期和加权基期:如子维度
,加权基期=子维度
权重
,加权本期=子维度
权重
3、计算每个子维度下的变动,
=加权本期-加权基期
4、总变动
5、确定每个因素的影响占比:
CTR异动诊断 |
整体 |
页面1 |
页面2 |
页面3 |
|
本期 |
曝光占比 |
100% |
14.2% |
32.3% |
53.5% |
ctr |
13.0% |
4.4% |
17.9% |
12.3% |
|
加权本期(A) |
13.0% |
0.63% |
5.78% |
6.59% |
|
基期 |
曝光占比 |
100% |
15.0% |
35.5% |
49.5% |
ctr |
15.2% |
5.1% |
18.7% |
15.8% |
|
加权基期(B) |
15.2% |
0.76% |
6.63% |
7.8% |
|
DIFF(A-B) |
-2.2% |
-0.13% |
-0.85% |
-1.22% |
|
贡献度 |
/ |
6% |
39% |
55% |
2.6、综合贡献计算法:均值指标,A/B指标
提出用综合贡献来度量维度因子对均值指标的影响大小的出发点有二:
- 由于均值指标在不同维度上的不可加和性(比如各商品类目的客单价加和不等于总的客单价),无论是使用偏移量还是超均贡献度,均无法准确度量不同因子对均值指标的影响程度
- 均值指标的波动分析往往存在“辛普森悖论”问题,比如指标整体下降但维度下各细分因子均上升,因此需要区分结构内和结构外两种变动的影响。
计算公式:
可以发现,均值指标本身的变化可以拆解为三部分:
- 组间贡献值:衡量结构变化(因子分母占比变化)对指标变化的影响。
- 组内贡献值:衡量因子量级变化对指标变化的影响。
- 交叉贡献值:衡量组间和组内交叉效应对指标带来的变化影响,属于高阶项,一般可忽略。
上述拆解方式存在以下优点:
- 可同时衡量结构内和结构外的变动,避免分析均值指标波动时产生“辛普森悖论”。
- 不同贡献值之间完全可加和,加和等于指标本身的变动,可量化为0-100%的贡献度,易于理解。
- 无需单独查看分子和分母的变动影响,通过不同贡献值即可对均值指标进行维度拆解。
举个例子
2.7、mdrca法:Multi-Dimensional Root Cause Analysis
随着业务扩展,业务模块间的关系愈加复杂。通过单一对象的指标反映的状态已不能满足业务监控需求。业务异常往往体现在多个对象的指标异常,用户收到告警后需要在大量指标数据中剥丝抽茧般地分析异常原因。
由于该归因分析方法属于算法范畴,原理较为复杂且实现难度较高,感兴趣的同学可以去网上找相关的文章阅读。
这里给个参考文章:MDRCA 算法 – 多维智能监控实现思路_CWS_chen的博客-CSDN博客_mdrca
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/130929.html