大家好,欢迎来到IT知识分享网。
作者/风仕

在上一期,我们已经讲完了多因素多元logistic回归分析,这期开始讲非条件(成组)logistic回归分析,我们主要从logistic回归分析介绍、非条件logistic回归分析的使用条件、步骤及案例的SPSS操作演示这几方面进行讲解。
logistic回归分析介绍
按统计设计分为条件Logistc回归与非条件Logistc回归。
条件logistic回归,用于分析配对病例对照研究,条件logit是按因变量1:1或者1:n配对或者n:m配对的。条件logistic回归时,数据中一定需要记录下配对编号,比如1:2的配对(1个病例配对2个对照,且共有20个组,组别编号从1到20,那么同时会有3个1,3个2,3个3,类似下去),而且在分析时将配对编号放入对应框中。在做条件logistic回归时,因变量只能为0和1二分类数据。数字中只能包括0和1,如果不是,可使用[数据处理]->[数据编码]进行设置。
另一种是非条件logistic回归,用于分析成组数据或非配对的病例对照研究。
多重回归分析研究一个正态随机因变量Y与一组自变量X (X,, X2, X3)…,Xp)的数量关系,但我们经常遇到因变量为二分类变量的情况,如发病与否、死亡与否等,需要研究该分类变量与一组自变量之间的关系,则采用二分类Logistic回归,又称非条件Logistc回归。
和多重线性回归分析一样,Logisitc回归分析的自变量也有连续变量、等级变量和分类变量3种,对于连续变量和分类变量(转换为哑变量)比较好处理,比较棘手的是等级变量(也称多分类有序变量),如文化程度可以分为文盲、小学、初中、高中及以上,如本例中心电图表 现分为正常、轻度异常和重度异常3种。这样的等级资料可以以连续变量的形式引入模型,但其前提条件是等级分组与Logit (P)呈线性关系,其效应等比例增加(或降低),如果该前提不能满足,则只能将等级变量当作分类变量,用哑变量来进行分析。
非条件logistic回归分析使用条件
1.因变量y必须是二分类的,即y的分布必须是二项分布。二项分布容易与泊松分布混淆,需要注意区分。
2.自变量x可以是定性也可以是定量。纳入的自变量必须有助于解释因变量,且数量不宜过多。建议进行自变量筛选,排除没有差异的无关自变量。
3.观察对象彼此不影响,即独立。这是所有统计方法都要遵守的前提。
4.自变量之间无多重共线性。共线性会导致模型估计的不稳定。
5.样本量不能太小。一般要求是自变量个数的15倍以上。
6.连续的自变量与因变量的logit转换值(对数单位转换)之间存在线性关系。这可以通过Spearman相关分析或Box-Tidwell法等方法进行分析。
非条件logistic回归分析步骤
1.排除差别不显著的自变量:通过比较不同组别之间的差异,选择差异显著的自变量纳入模型。
2.检查定量自变量和因变量的logit值是否有线性关系:通过Spearman相关系数等方法检查变量间是否存在线性关系。
3.排除高杠杆点和离群值:识别和处理数据中的异常值,以避免影响模型的准确性。
4.检查自变量之间的多重共线性:使用方差膨胀因子(VIF)等指标检测共线性问题。
5.进行二分类logistic回归分析:在SPSS等统计软件中,设置自变量和因变量,进行模型拟合。
通过这些步骤,可以有效地进行非条件logistic回归分析,并确保模型的准确性和有效性。
案例的SPSS操作演示
分析示例
某医师希望研究病人的性别(0为女性,1为男性)、心电图检查是否异常(0为正常、1为 轻度正常、2为重度正常)、年龄(岁)与患冠心病与否有关,其具体数据见下表。

数据录入
1. 变量视图
名称 y 标签 是否患冠心病 值0=未患病 1=患病
名称 x1 标签 性别 值0=女性 1=男性
名称 x2 标签 心电图表现 值0=正常 1=轻度异常 2=重度异常
名称 x3 标签 年龄

2. 数据视图

操作流程

1.下图为二分类Logistic回归的主对话框,其中因变量框(dependent) 中选入二分类因变 量,且只能选入一个,本例选入变量是否患有冠心病y; 协变量框(covariates) 中选入自变量,本 例选入自变量性别x₁、心电图表现x₂ 和年龄x₃; 方法框(method) 用于选入自变量进入模型的 方法,一般分为进入法(enter), 前进法(forward) 和后退法(backward)3 种,前进法和后退法又可分为条件(conditional)、偏似然比(LR) 和Wald 检验3种。如果自变量较少,通常采用进入 法;如果自变量太多,则选用前进LR, 前进LR相当于多重线性分析中的逐步回归。本例当中 采用进入法。

2.下图是设置哑变量。如果自变量为多分类变量(如血型等),由于多分类变量和因变量 之间不存在线性关系,须用哑变量的方式来分析,系统将产生K-1 个哑变量(K 为该变量的 水平数)。哑变量的设置有对比方式和参考类别两个设置项目,设置方式指各哑变量之间的 对比方式,有指示符(indicator)、简 单(simple)、差值(difference) 、Helmert、重复(repeated) 、多 项式(polynomial)、偏差(deviation)等形式,我们通常用到的为默认的指示符,并且需要以最后 一个或第一个为参考类别,其他水平都与参考水平作比较。本例当中心电图表现x₂ 有3个水 平(正常x₂=0 、轻度异常x₂=1、重度异常x₂=2), 按默认的指示符(indicator) 方法,若选用最后一个(L) 为参考类别,则系统生成的两个哑变量的赋值如下:
10 该组反映正常组与重度异常比较。
01 该组反映轻度异常与重度异常比较。
00 该组为参考的重度异常水平,在统计结果中无法体现。
若选用第一个(F) 为参考类型,则系统生成的两个哑变量的赋值如下:
00 该组为参考的正常水平,在统计结果中无法体现。
10 该组反映轻度异常与正常水平的比较。
01 该组反映重度异常与正常水平的比较。
可见,选用不同的参考水平,所代表的含义是不一样的,所以大家在进行结果解释时需要 特别注意。

3.下图将输出Logistic回归分析中一个非常重要的指标OR 。Exp(B) 的 CI, 即 OR 值 的 95%可信区间,OR值(比数比)是流行病中一个重要的指标,其计算公式为:
(病例中暴露的比例/病例中非暴露的比例)/(对照中暴露的比例/对照中非暴露的比 例)。
如 OR=2, 则说明病例中暴露于该危险因素的比例为对照中的2倍,显示该因素可能与疾 病发生有关。

结果解释
1.下表为数据处理情况汇总,模型共40例记录纳入分析,0例缺失。

2. 下表为因变量赋值的情况,请注意二分类Logistic(Binary Logistic)过程以因变量较大
取值的概率P(Y=1), 而不是以P(Y=0) 来建立模型,因此在赋值的时候,有必要检查一下结果,确保分析结果的解释正确。大家在建立数据时,将患病用1赋值,未患病用0来赋值,这样避免麻烦。

3.对自变量中分类变量编码进行说明,本例采用指示符(indicator)为编码方法,采用以第 一分类为参照(即以最小值0为参照)进行编码,形成了两个哑变量,即将变量心电图表现x₂ 变换成两个变量联合进行表示,当心电图为正常(x₂=0) 时,两个哑变量均为0;当心电图为轻 度异常(x₂=1) 时,第一和第二哑变量分别为1和0;当心电图为重度异常(x₂=2) 时,第一和 第二哑变量分别为0和1。这样便将默认的连续变量定义为分类变量。

4. 块0:起始块
(1)开始进行模型拟合,即步骤0,首先给出的模型不含任何自变量,而只有常数项(即无 效模型)时的输出结果。该表输出预测分类结果,可见当模型不包含任何自变量时,所有观察 对象皆被预测为患病,总的预测准确率为50.0%。

(2)下表给出了该模型中参数的检验 无统计学意义关系不大。

(3)下表反映的是如果将现有模型外的各个变量纳入模型,则整个模型的拟合优度是否有统计学意义,可以看出若引入性别x₁, 则模型x²=1.616,P=0.204>0.05, 无统计学意义。若将两个哑变量均引入,则模型x²=5.271,P=0.072>0.05,无统计学意义。若将心电图表现x₂ 分拆的的两个哑变量单独引入,仍无统计学意义。而将年龄x₃ 引入,则x²=6.810,P=0.009<0.05,有统计学意义。

5. 块1:方法=进入法
(1)步骤1表示开始向模型中引入自变量的结果,由于我们采用了进入(enter) 法来引入变量,即强迫所有变量同时进入模型。综合检验采用3个统计结果:步骤(step) 统计量为每一 步与前一步相比的似然比检验结果,块(block) 统计量指若将块0与块1相比较的似然比检验 结果,而模型(model) 统计量则是上一个模型与现在方程中变量有变化后模型的似然比检验结果。由于本例采用进入法,3个统计量及假设检验结果完全一致,x²=18.039,P=0.001< 0.05,说明x₁,x₂,x₃3 个变量中至少有一个有统计学意义。

(2)下表为模型汇总,即模型情况简报,-2倍的似然对数值(-2 Log likelihood)为 37.413,Cox &Snell R²和 Nagelkerke R²为两个伪决定系数(“伪”,以示与线性回归模型中的 决定系数相区别),伪决定系数从不同的角度反映了当前模型中自变量解释了因变量总变异 的比例,但对于 Logistic回归而言,通常看到的模型伪决定系数的大小不像线性回归模型中的决定系数那么大。

(3)下表为现在模型对因变量的分类预测情况,从预测分类表可以看出,预测准确度从块 0(模型只含有常数项)的50%上升到70%,说明新变量的引入对改善模型预测效果有意义。

(4)下表是Logistic回归分析中最重要的部分,包括了最终引入模型的变量及常数项的偏
回归系数值(β),标准误(SE),Wald 卡方值(Wals), 自由度(df),P 值(Sig.),以 及OR 值(Exp (B)) 。 由结果可以看出,变量年龄x₃ 的偏回归系数为0.163,Wald 检验结果P=0.09<0.05,
有统计学意义,OR 值为1.178,0R 值95%的可信区间为(1.042,1.330);心电图表现x₂ 中的 第二个哑变量也有统计学意义,其偏回归系数为2.650,P=0.022<0.05,0R值为14.160,0R值的95%可信区间为(1.467,136.709),说明心电图重度异常与正常比较,患心脏病的概率要 高。而其他自变量,如性别x₁, 心电图轻度异常与正常比较均没有统计学意义。

参考:《临床医学研究中的统计分析和图形表达实例详解》
欢迎关注我,让你身边多一位熟悉统计分析方法的帮手,有以下付费视频或服务可供选购:
1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。
2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。
3.购买视频课程赠送课程相关主题内容1对1答疑1年。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/172003.html