工作中常用的归因(因果分析)方法

工作中常用的归因(因果分析)方法归因方法的综述 归因分析怎么做

大家好,欢迎来到IT知识分享网。

前言

文章大纲

什么是归因?归因的作用和价值是什么?

归因(Attribution),又称因果分析(Causal Analysis),是一种分析方法,旨在通过数据和逻辑推理,确定某个结果(如销售额、转化率、用户满意度等)是由哪些因素(如广告、产品、价格、竞争等)造成的,以及各个因素的贡献程度。例如,在互联网广告投放中,我们可以通过归因分析来评估不同的营销渠道对用户转化率的作用,并优化我们的投放策略。在教育领域,我们可以通过归因分析来探究学生的学习成就与各种内部和外部因素的关系,并提供有效的教学指导。
归因分析有很多种模型和方法,不同的模型和方法适用于不同的场景和目标,本文从因果的角度,将归因分析方法分为因到果 果到因 因果互推三块分别介绍,框架如下:
image.png
当然,不同分析er心中的归因框架可能维度,划分各有不同,工作场景,内容心中的方法的使用频率也会不同,这里笔者列出框架仅做参考,不足之处,欢迎讨论指正

1、由因到果的归因方法

1.1、AB实验(高频)

(1)原理介绍
AB实验又称随机实验,是一种通过随机分配用户或对象到不同条件下(如A组和B组),观察不同条件下结果的差异,从而推断条件对结果的影响的方法,AB实验是工作中最直接和有效的归因方法,其随机分组、控制变量的主体思想,很好的消除混杂变量(Confounding Variables)的干扰,得到可信的因果关系。
(2)应用流程

  • 定义目标变量(Outcome Variable),即要观察和评估的结果指标,如点击率、转化率、满意度等
  • 定义处理变量(Treatment Variable),即要测试和比较的条件或策略,如A组和B组
  • 实验设计(Experimental Design),即要采用的随机分配方法和样本大小
  • 实验发布(Experimental Operation),即按照实验设计,将用户或对象分配到不同的处理变量下,收集目标变量的数据
  • 实验分析(Experimental Analysis),即利用统计方法,比较不同处理变量下目标变量的差异,判断是否具有显著性和实际意义

上述流程中具体实操时 实验流量的分发怎么做到随机、实验样本量实验周期定多少、实验平台的底层逻辑、实验分析中底层的统计检验原理都需要读者在掌握的,这里仅抛转,深入的学习读者可以自行查找资料进行更进一步的学习
(3)简例
一个简单的AB实验案例是:一个电商网站想要测试改变购物车按钮颜色对用户点击率的影响。他们将用户随机分成两组,一组看到绿色的按钮(对照组),另一组看到红色的按钮(实验组)。经过一段时间的观察,他们发现红色按钮组的用户点击率比绿色按钮组高出10%,并且这个差异是统计显著的。因此,他们得出结论,改变按钮颜色可以提高用户点击率,并建议将按钮颜色改为红色

1.2、PSM(中频)

(1)原理介绍
psm是倾向得分匹配法(Propensity Score Matching)的简称,它是一种观察性研究中常用的反事实因果推断方法,常用来评估一个二元变量(如是否参加培训、是否使用某种药物、是否接受某种政策等)对一个连续变量(如收入、健康状况、满意度等)的影响。
psm的基本思想是利用一系列可观察的协变量(如年龄、性别、教育程度等),计算每个个体接受干预的倾向性得分,即一个介于0到1之间的概率值。然后根据倾向性得分,将接受干预的个体和未接受干预的个体进行匹配,从而构造出一个类似于随机实验的数据集。最后比较匹配后的两组个体在目标指标上的差异,从而推断出干预的效果
(2)应用流程

  • 明确研究目的和假设:确定要评估的干预变量和目标指标,以及预期的效果方向和大小。
  • 选择协变量:根据理论和数据,选择一些与干预变量和目标指标相关的协变量,作为倾向性得分的预测变量。
  • 估计倾向性得分:利用逻辑回归或其他分类模型,根据协变量估计每个个体接受干预的倾向性得分。
  • 进行倾向性得分匹配:根据倾向性得分,采用一对一匹配、一对多匹配、半径匹配、核匹配等方法,将接受干预的个体和未接受干预的个体进行匹配,形成匹配后的数据集。
  • 检验匹配质量:利用平均绝对偏差(MAD)、标准化均值差(SMD)、平衡检验等方法,检验匹配后两组个体在协变量上是否达到了平衡,即是否消除了混杂变量的影响。
  • 估计干预效果:利用t检验、Wilcoxon检验、回归分析等方法,比较匹配后两组个体在目标指标上的差异,从而推断出干预的效果

(3)简例
如想要评估参加某种职业培训项目对个人收入水平的影响。为此收集了一些参加培训项目和未参加培训项目的个人数据,包括他们的年龄、性别、教育程度、工作经验等协变量,以及他们的收入水平。他们利用这些协变量计算了每个个体参加培训项目的倾向性得分,并根据这些得分将参加培训项目的个人和未参加培训项目的个人进行了一对一匹配。他们检验了匹配质量,并发现匹配后两组个体在协变量上没有显著差异。然后他们比较了匹配后两组个体在收入水平上的差异,并发现参加培训项目的个人收入水平比未参加培训项目的个人高出15%,并且这个差异是统计显著的,因此得到结论:参与这个培训项目对个人收入有显著的提高(15%)

1.3、DID(中频)

(1)原理介绍
did(Difference in Differences),又称双重差分,是一种通过比较两组对象在两个时间点上的结果差异的差异,从而估计处理效应的方法.DID归因的底层逻辑为当两组对象在处理前是平行趋势(它们的结果变化是相同或相似的),那么在处理后,它们的结果差异的差异就可以归因于处理效应。did在工作中常用于评估政策或事件的影响,如评估教育或医疗政策对教育水平或健康状况的影响
(2)应用流程

  • 定义目标变量,即要观察和评估的结果指标,如经济增长、教育水平、环境质量等。
  • 定义处理变量,即要测试和比较的条件或策略,如是否受到某种政策或事件的影响。
  • 定义时间变量,即要比较的两个时间点,如处理前和处理后。
  • 定义分组变量,即要比较的两组对象,如受到处理影响的组和未受到处理影响的组。
  • 检验平行趋势假设,即利用统计方法(如图形分析、回归检验等),检验两组对象在处理前是否具有相同或相似的结果变化趋势。
  • 估计双重差分值,即利用数学公式(如DID = (Y1t1 – Y0t1) – (Y1t0 – Y0t0)),计算两组对象在两个时间点上的结果差异的差异。
  • 估计处理效应,即利用统计方法(如显著性检验、置信区间等),判断双重差分值是否具有显著性和实际意义。

(3)简例
要评估某种环保政策对空气质量的影响。他们收集了两个城市(一个实施了政策,一个没有实施)在两个年份(一个是政策实施前,一个是政策实施后)的空气质量指数数据。他们利用这些数据计算了每个城市在每个年份的空气质量指数平均值,并比较了各城市在各年份之间的差异。他们发现实施了政策的城市在政策实施后空气质量指数平均值下降了10%,而没有实施政策的城市在同一时期空气质量指数平均值下降了2%。因此,他们得出结论,政策的差分于差分值是-8%,即政策可以使空气质量指数平均值下降8%

1.4、回归分析(低频)

(1)原理介绍
回归分析(Regression Analysis),是一种通过建立目标变量和一组解释变量之间的数学模型,从而估计解释变量对目标变量的影响程度和方向的方法。回归分析是一种最基本和常用的统计分析方法,可以应用于各种类型和规模的数据,但是它不能直接证明因果关系(姑且归类到因->果的方法里来),需要结合上述三类方法一起用,只能表达相关关系,并且可能受到混杂变量、遗漏变量、多重共线性等问题的影响,多用来评估结果受其他变量的影响程度。
(2)应用流程

  • 明确研究目的和假设:确定要评估的自变量和因变量,以及预期的影响方向和大小。
  • 选择数据:根据理论和数据,选择一些与自变量和因变量相关的数据,作为回归分析的输入。
  • 选择回归类型:根据因变量和自变量的数据类型和分布特征,选择合适的回归类型,如线性回归、逻辑回归等。
  • 拟合回归方程:利用最小二乘法或其他优化方法,根据数据拟合出一个回归方程,并给出回归系数、截距、拟合优度等统计量。
  • 检验回归假设:利用正态性检验、异方差检验、多重共线性检验、内生性检验等方法,检验回归方程是否满足一些基本假设,如误差项服从正态分布、误差项方差恒定、自变量之间不存在严重共线性、自变量与误差项无相关性等,从而保证回归系数的一致性和有效性。
  • 估计自变量效果:利用t检验、F检验、Wald检验等方法,对回归系数进行显著性检验,并给出置信区间,从而推断出自变量对因变量的效果

关于由因到果感兴趣了解更为深入的方法介绍讲解,可见:之前的历史文章:因果推断|常用方法介绍、如何科学地进行AB实验;一些行业经典书籍和论文:《overlapping-experiment-infrastructure-more-better-faster-experimentation》(讲放量的)、《关键迭代》(AB实验的体系讲解)、《别拿相关当因果!因果关系简易入门》(讲因果关系的)

2、由果到因的归因方法

2.1、5w2h(中频)

(1)原理介绍
探索性(5w2h法)归因,是一种通过框架性提出和回答一系列问题,从而探索和解释某个结果是由哪些因素引起的,以及各个因素的作用机制的方法,根据不同的角度和维度,提出关于结果的相关问题,并尝试寻找答案。
(2)怎么应用?
探索性归因在工作中常用于分析复杂或未知的结果,例如在用户运营中,5W2H归因可以用于分析用户流失原因,多维度通过多维度的分析给出数据洞察建议,5W2H流失归因的详细部分可以学习数据之道中用户流失分析一章
5w2h归因的一般步骤如为:

  • 定义目标变量,即要探索和解释的结果指标,如成功、失败、受欢迎、不受欢迎、有效、无效等。
  • 选择问题框架,即要采用的提问方法,如5w2h法等。
  • 提出相关问题,即根据问题框架,从不同的角度和维度,提出关于目标变量的相关问题,如谁、什么、何时、何地、为什么、如何、多少等。
  • 回答相关问题,即利用数据和逻辑推理,尝试寻找每个问题的答案,并给出证据和解释

2.2、渠道归因(中频)

(1)原理介绍

  • 渠道归因(Channel Attribution),是一种通过分配不同渠道对用户转化行为的贡献度,从而评估不同渠道的效果和价值的方法
  • 渠道归因可以采用不同的分配规则,如末次归因(功劳都算在用户付费前最后一个动作上),线性归因(功劳都平摊到用户付费一系列动作上),首次归因(功劳都算在用户付费前第一个动作上)等,即根据用户接触渠道的顺序和频率,给予不同渠道不同的权重

(2)应用
渠道归因在工作中常用于评估营销活动或广告投放的效果和价值,例如:

  • 在电商中,渠道归因可以用于评估用户从浏览商品到下单购买过程中,接触到的不同渠道(如搜索引擎、社交媒体、邮件营销等)对用户转化行为的贡献度。
  • 在游戏中,渠道归因可以用于评估用户从下载游戏到付费购买过程中,接触到的不同渠道(如应用商店、广告平台、推荐系统等)对用户转化行为的贡献度

渠道归因的一般步骤如下:

  • 定义目标变量,即要评估的用户转化行为,如下单、付费、报名等。
  • 定义渠道变量,即要比较的不同渠道,如搜索引擎、社交媒体、邮件营销等。
  • 选择分配规则,即要采用的分配方法,如末次归因、线性归因、首次归因等。
  • 分配渠道贡献度,即根据分配规则,给予不同渠道不同的权重,如末次归因是给予用户最后接触的渠道100%的权重,线性归因是给予用户接触的所有渠道相同的权重,首次归因是给予用户第一次接触的渠道100%的权重。
  • 评估渠道效果和价值,即利用数据和逻辑推理,比较不同渠道的贡献度,判断哪些渠道是有效和有价值的,哪些渠道是无效和无价值的

2.3、异动归因(高频)

(1)是什么?
异常归因(Anomaly Attribution),是一种通过分析某个结果出现异常变化的原因,从而找出影响因素和改进方案的方法
(2)怎么用?

  • 哪有有异常,异常了多少,我们需要确定数据异常的范围和程度,比如是哪个指标出现了异常,异常发生在什么时间段,异常值与正常值相比有多大的偏差等。
  • 拆解定位,我们需要对数据进行拆解和分组,比如按照不同的维度(如地域、渠道、用户群等)或不同的子指标(如点击率、转化率、留存率等)来切分数据,找出异常值主要集中在哪些维度或子指标上。
  • 归因,我们需要对每个维度或子指标进行归因分析,比如使用对比分析、相关性分析、假设验证等方法来探索它们与异常值之间的关系,找出可能的影响因素和原因

(3)案例

  • 一个典型的电商平台的运营场景,如发现昨天平台上的订单量突然下降了20%,想要找出导致订单量下降的原因。
  • 首先确定数据异常的范围和程度,比如订单量下降发生在昨天早上9点到晚上9点之间,下降幅度最大达到30%,与前一周同期相比有明显差异。
  • 我们然后对数据进行拆解和分组,比如按照不同的地域、渠道、商品类别、用户群等维度来切分订单量数据,发现订单量下降主要集中在北方地区、移动端渠道、服装类商品和新用户群上。
  • 我们接着对每个维度进行归因分析,比如使用对比分析来查看北方地区与其他地区之间是否有显著差异,发现北方地区昨天出现了大雪天气(外因),可能影响了物流配送和用户购买意愿;使用相关性分析来查看移动端渠道与其他渠道之间是否有相关性,发现移动端渠道昨天出现了系统故障(内因),导致部分用户无法正常访问和下单;使用假设验证来查看服装类商品与其他商品类别之间是否有差异,发现服装类商品昨天没有进行任何促销活动,而其他商品类别都有不同程度的优惠券和满减活动,可能影响了用户的购买选择;使用假设验证来查看新用户群与老用户群之间是否有差异,发现新用户群昨天没有收到任何引导和激励的信息,而老用户群都收到了积分兑换和会员权益的提醒,可能影响了用户的忠诚度和复购率。
  • 我们最后对每个影响因素和原因进行量化评估,比如使用贡献度分析来计算它们对订单量下降的贡献百分比,发现北方地区的天气因素贡献了40%,移动端渠道的系统故障贡献了30%,服装类商品的缺乏促销活动贡献了20%,新用户群的缺乏引导和激励贡献了10%;使用敏感性分析来计算它们对订单量下降的影响程度,发现北方地区的天气因素对订单量下降的敏感性最高,移动端渠道的系统故障次之,服装类商品的缺乏促销活动和新用户群的缺乏引导和激励相对较低。从而得出结论和建议,比如优化移动端渠道的系统稳定性,增加服装类商品的促销活动,提高新用户群的引导和激励等

2.4、case归因(高频)

(1)是什么?
case是一种用来分析特定情况或问题的原因和解决方案的方法,它可以帮助我们从多个角度和层面来理解和解决。case适用于任何需要分析特定情况或问题的场景,比如管理咨询、商业策略、产品设计等,是宏观向和微观向都比较实用的归因方法
(2)怎么用?

  • 清楚背景,我们需要明确case的背景和目标,比如是什么情况或问题,发生在什么时间、地点、对象上,需要达到什么样的结果或效果等。
  • 数据收集,我们需要收集和分析case相关的数据和信息,比如使用数据分析、市场调研、专家访谈等方法来获取case的现状、影响因素、竞争优劣、客户需求等。
  • 提出假设,我们需要根据数据和信息来提出并验证假设
  • case验证,我们需要根据假设 正向反向找出对应的case进行论证,得出结论给出建议。

(3)案例
case归因常和数据向归因一起使用,增强数据结论的说服力
行业咨询分析上,如艾瑞咨询2022公布的《不婚面面观-中国当代不婚现象白皮书》分析报告中,对不婚用户进行不婚归因时,就运用了大量的case归因方法来增强结论的说说服力
image.png
在分析不婚者被动不婚原因时,通过用研数据的描述性分析推断归因的同时,辅以不婚用户自身的观点的case加强结论的说服力。
产品分析上,如36氪与网易云音乐合作《00后长音频消费趋势报告》中在对用户收听动机进行归因时,在通过用研数据的描述性分析推断归因结论的同时,也带上了一位对应收听动机为获取知识的00后典型用户case加强结论的说服力
image.png

2.5、其他(夏普利与马尔科夫)-低频(目前在工作中没用过)

夏普利与马尔科夫是归因中较上文的方法更为复杂,夏普利基于博弈论思想进行归因,马尔科夫侧基于概率论思想对用户进行归因,工作中几乎没实际用过,一笔带过知道有,感兴趣的同学可自行搜索资料学习
关于由果到因更为深入的讲解推荐继续去学习《数据分析之道》(有许多不错的用来归因的方法案例)

3.因果互推的归因方法

3.1、公式推导-中频

(1)是什么?
公式推导是一种基于数学逻辑的归因方法,可以应用于目标变量和因素变量之间有明确的数学关系,且已知部分条件,未知部分条件的情况,它的原理是,如果一个公式能够同时满足已知条件和未知条件,那么它就是一个有效的归因方法,反之则不是
(2)案例

  • 常见的比如在财务中,公式推导可以用于分析利润或收入的构成和影响因素,如利润 = 收入 – 成本,收入 = 单价 * 销量等
  • 再如在用户运营中,T日DAU (日活跃用户数)= T日新用户日活+[(T-1日新用户日活 * T-1日新用户次日留存率) +(T-1日老用户日活 * T-1日老用户次日留存率)]+[ (T-1日活跃用户 * T-1日促活率)+(T-1日(存量)流失用户 * T-1日召回率) ] 日活下降或上升,可以通过公式推导具体的影响指标项,再通过其他的归因方法得出进一步的业务侧结论。

3.2、贝叶斯-低频

4、总结

本文从因果推导顺序维度将归因方法分为由因到果、由果到因、因果互证三大类,并选取了几种工作中比较常用的方法,介绍了它们的原理、应用流程和案例。本文旨在为读者提供一个归因分析的宏观视角和框架,帮助读者理解和选择合适的归因方法,解决实际问题。当然,本文并不能涵盖所有的归因方法和细节,也可能存在一些不足或错误之处,欢迎读者提出宝贵的意见和建议。同时,本文也希望能激发读者对归因分析的兴趣和探索,鼓励读者深入学习和实践归因分析,发现数据背后的故事和机会。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/151554.html

(0)
上一篇 2025-03-12 22:10
下一篇 2025-03-12 22:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信