回归分析类型

医学研究常用回归方法

  • 生存分析(survival analysis)常见的因变量指标:
    1. 生存概率和生存率
    2. 生存时间
  • 死亡事件(death event)又称失效事件(failure event)或终点事件。死亡事件是一个广义概念,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。一般是在设计阶段根据研究目的来确定,如乳腺癌患者手术后的死亡、白血病患者化疗后的复发、肾移植患者的肾功能衰竭、接受健康教育戒烟后的青少年复吸烟、接受某种健康保险方式后的中途退保等,均可作为死亡事件。死亡事件可以是二分变量,例如一群术后病人,其中部分在术后康复良好,而少数死亡。这时可以用Logistic回归来进行风险模型构建。
  • 生存时间(survival time)指观察到的存活时间,可用天、周、月、年等时间单位记录,常用符号t表示。
  • 生存时间根据其不同的特点,可分为以下两种类型:
    1. 完全数据(complete data):指从观察起点到发生死亡事件所经历的时间,如患者的生存天数89天和85天。
    2. 截尾数据(censored data):简称截尾值(censored value),又称删失值或终检值。生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored)。
  • 截尾的主要原因有以下三种:
    1. 失访(withdrawal):指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;
    2. 退出:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;
    3. 终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。从观察起点到截尾时点所经历的生存时间称为截尾数据,习惯上在生存时间右上标注“+”表示。

表1:医学研究常用回归方法 | 数据类型 | 分析方法 |前提假设 | | —- | —- |—- | | 因变量为连续性定量变量,服从正态分布 | 单因素或多元线性回归 | 无多重共线性,随机误差 | | 因变量为分类变量,二分(生或死)或多分变量 | Logistic回归 | 无多重共线性,误差二项分布 | | 因变量为二分变量(生或死)+ 生存时间 | Cox回归 | 等比例时间风险 |

心理学研究常用回归方法

表2:心理学研究常用回归方法 | 研究类型 | 数据类型 | 分析方法 |前提假设 | | —- | —- |—- |—- | | 横向研究 | 分类变量 | Logistic回归 | | 横向研究 | 连续变量 | 线性回归 | | 纵向研究 | 分类变量 | Logistic回归 | | 纵向研究 | 连续变量 | 线性回归 |

多元回归分析的可视化-森林图

定义和分类

  • 定义: 森林图(forest plot)是用以展示多个研究或多个自变量对结果解释度的图形。一般为在平面直角坐标系中,以一条垂直于X轴的无效线(通常坐标X=1或0)为中心,用若干条平行于X轴的线段来表示每个研究或自变量的效应量大小及其95%可信区间,最后用一个棱形来表示多个研究合并的效应量及可信区间。

  • 类型:通常森林图有两种类型,一类是二分类变量森林图,一类是连续变量森林图。

二分类变量森林图

  • 二分类变量研究中,常用相对危险度(relative rank, RR)、比值比(OR)或风险比(HR)来作为表示研究因素效应量大小的指标。
  • 通常情况下,在森林图中以效应量点估计值=1作为无效线,假定无效线左侧为因素A(作为参照),无效线右侧为因素B。
  • 当每个研究的效应量的95%CI包含1时,即森林图中的横线线段与无效线相交时,提示两组之间结局事件发生率的差异无统计学显著性,不能认为因素A、B对结局事件发生风险的影响存在差异。
  • 例如无效线左侧表示A(安慰剂药物),右侧表示B(新款药物)。如果某研究的效应包括了比值1,则表明A和B没啥统计差异,即B药物的效果跟安慰剂效应没啥差别。

连续变量森林图

  • 当研究的分析指标为连续变量时,此时可绘制连续变量森林图,在这类研究中,通常用加权均数差(Weighted Mean Difference,WMD)或者标准化均数差(Standardised Mean Difference,SMD)作为合并的统计量。
  • 加权均数差(WMD),在Meta分析中,它主要用于具有相同连续性结局变量和相同测量单位的研究中。计算WMD时,每个原始研究的WMD为两组均数的差值,即试验组的均数减去对照组的均数。WMD以各个研究中原始的测量单位,真实地反映了研究效果,消除了绝对值大小对结果的影响。一般的,当不同研究的测量方法和测量单位相同时,宜选用WMD作为效应量,在实际的应用中更容易理解。
  • 标准化均数差(SMD),由两组均数差值除以平均标准差计算而得,当不同研究的测量方法和测量单位不同,或者不同研究间均数的差异过大时,宜选用SMD作为效应量。SMD不仅消除了绝对值大小的影响,还消除了测量单位对结果的影响,是一个相对指标,结果的一致性优于WMD。但是在某些情况下,相对指标并不能反映结局事件的真实情况,容易夸大效应,结果的可解释性要弱于WMD,因此对于结果的解释要慎重。
  • 当效应量=0时提示两组均数相等,因此通常在森林图中以效应量点估计值=0作为无效线,我们依然假定无效线左侧为因素A(作为参照),无效线右侧为因素B。
  • 当效应量的95% CI包含0时,即森林图中的横线线段与无效线相交时,可认为两组之间的均数差异无统计学显著性,不能认为两组结局指标的均数不相等。
  • 当效应量的95% CI均大于0时,即森林图中的横线线段与无效线不相交,且在无效线右侧,可认为因素B组结局指标的均数大于因素A组。一般情况下,若结局指标是不利事件时,则提示与因素A相比,因素B可引起结局指标的升高,为危险因素。
  • 反之,当效应量的95% CI均小于0时,即森林图中的横线线段与无效线不相交,且在无效线左侧,可认为因素B组结局指标的均数小于因素A组。一般情况下,若结局指标是不利事件时,则提示与因素A相比,因素B可引起结局指标的降低,为保护因素。

森林图应用

元分析

多元回归分析

亚组分析

将亚组分析的结果用森林图来表示最为常见,此类森林图和上面我们介绍的森林图的意义相似,主要是根据我们分组的一些因素,例如年龄、性别等,把研究分成了不同的亚组,然后在不同亚组下分别进行分析和探讨。这样不仅可以展现各个亚组内试验因素的效应量大小,同时还可以直观的在亚组之间进行比较。

森林图绘制

  1. R语言代码实现-荷兰统计联盟

参考资料

  1. 主要参考自 “医咖会”微信公众号 https://www.sohu.com/a/225438746_489312
  2. http://www.360doc.com/content/19/0715/20/47588191_848899421.shtml
  3. 生存分析中的几个概念