Background

  • 在零假设检验 (Null Hypothesis Significant Test, NHST)中四个相互关联的统计量:样本量、效应量、alpha水平和统计功效。这四个变量中,如果我们确定了其中的三个,就可以计算出第四个未知的变量。
  • 样本量,simple size。一些方法学的研究者建议,如果无法确定所研究对象的效应量,那么每个实验条件的观测数目最好大于50(Simmons, 2003)。
  • 效应量,effect size。效应量,表示两个总体分布的重叠程度,反映处理效应大小的度量。如果说P值是判断显著性是还是否的标准,效应量可以视为量化条件间差异或相似程度的指标。有时候,可能两个实验条件之间差异显著,但是实际上效应量很小,这种显著的统计结果也不一定具有现实应用意义。效应量可分为以下三类:
    1. 简单效应量。简单效应量通常是效应组与对照组平均值之差。APA(美国心理学会)建议,当简单效应量具有实际的实践意义时(如3个月的运动减肥干预可以减少脂肪多少千克),可考虑采用简单效应量。
    2. 标准化效应量。由于简单效应量受到量纲、整体变异大小等因索限制,不便于研究间的比较。标准化效应量则通过标准化数据解决了这些问题(如Cohen’s d等)。
    3. 相关效应量。相关效应量则是指自变量与应变量的相关程度(如决定系数等),相关研究往往要求报道结果的简单效应量和相关效应量,如在回归方程中应报道决定系数或校正决定系数已成为基本要求.
  • 统计功效或统计检验力,power。统计功效指某检验能够正确地拒绝一个错误的虚无假设的能力,用1-β表示。在实验设计中,power反映了假设检验能够正确检测到真实实验操纵效应的能力。一般而言,根据Cohen的说法,一个统计检验力为0.8及以上的研究才算比较高,所以一般power设置为0.8 (Cohen, 1992).

G-power的实际应用

  • 需要进行一个32(被试间被试内)的混合实验设计,已知power=0.8,a=0.05,需要进行F检验,不知道到效应量和样本量。
  • 对于未知的效应量:
    1. 如果研究对象已经有元分析,最好使用元分析中报告的效应量。
    2. 如果没有元分析,但是有相关的前人研究,可以按照下列教程进行计算具体某个研究的效应量。
    3. 如果既没有元分析,也没有前人文献····如果无法确定所研究对象的效应量,那么每个实验条件的观测数目最好大于50(Simmons, 2003)(actually, I am not sure about this suggestion)。
  • 效应量的数量,对于F-test而言,每个统计效应都可以计算出一个对应的效应量,例如A变量主效应,B变量主效应,A*B交互效应以及事后的t检验都存在对应的power analysis。但大家一般并不把所有的功效分析都计算一遍,只聚焦在关键的统计效应上。这一点在计算前人文献效应量和计算事前设计的样本量时都需要注意,务必保持前后所选择的计算对象是一致的。

  • 效应量的类型 在计算效应量之前,需要了解ANOVA分析常见的效应量指标,及其指标之间的转换方法。 方差分析中常见的两类效应量指标就是eta方和f (胡竹菁,2011)。Gpower所采用的效应量指标是f(Cohen, 1977),而SPSS中ANOVA分析报告的效应量指标为偏eta方。

  • 效应量的大小 根据Cohen的建议,f小于0.1为小的效应;f在0.25左右为中等效应;f大于0.4属于大的效应( Cohen, J., 1988)。0.2的偏eta方对应的效应量f在0.5左右。一般而言,中等和较大的效应量也是可以被接受的,但这仅仅适用于实在找不到前人相似研究的情况。只要前人有类似的研究或元分析,还是要按照前人的结果去计算效应量。

第一步 计算前人已发表文献中的效应量f(如果没有元分析的话)

首先你需要找到与当前研究主题相似的前人研究

  1. 打开G-power,Test family 选择F-tests
  2. Statistical test这里,如前所述,同一种ANOVA分析具体也有多种选择。注意选择取决于实验目的。选择最关键的。
  3. Type of power analysis. 这里用不到设置,默认即可。
    GUI
  4. 点击Input Parameters下的Determine,打开具体的计算面板。具体而言,又有三种计算方法:
    1. 一种是如果选择的between factors,三种方法都可以使用。可以根据平均值(means)和标准差(SD)进行计算效应量。也可以使用下面两种方法。
    2. From variances
    3. 直接使用偏eta方(partial Eta squared)计算效应量f。这个最简单,但是有的研究中没有提供这个指标。
      between factors within-between factors
  5. 根据前人文献结果部分ANOVA的结果,选择合适的效应量计算方法。输入参数,点击Calculate, 得到这篇研究的ES。
  6. 然后,需要从多个相似研究中收集其ES。一般情况,所有找到的研究并不一定会报告同样类型的效应量指标。
  7. 收集完之后,需要将不同类型的效应量指标转换为同种类型的效应量指标,如ANOVA的f指标。
  8. 转换完之后,计算所有效应量的平均值。计算好的平均值用于后续的功效分析。

第二步 计算事前实验设计的样本量

此时,假设你已经通过元分析或者前人文献得到了效应量的值,那么NHST四个指标已知其3,只有样本量未知。

  1. Type of power analysis. 选择”A prior compute required sample size - given a, power and effect size”.
  2. 设置Input Parameters。一般,power = 0.8 (or higher), a err prob = 0.05 (or 0.01)。其他参数的填写:
    1. Number of groups:被试间变量有几个水平。
    2. Number of measurements: 被试内变量有几个水平.
    3. Corr among rep measures: 被试内变量几个水平间的相关性
    4. Nonsphericity correlation: Highest value is 1.0, and lowest value = 1/[repetitions – 1]. Determine if sphericity assumption is met (1), something else if not met (0). What is the Sphericity Assumption? When running repeated measures the variances of the differences between all possible pairs of the within subjects variable should be equivalent. For example, if an outcome variable is measured at time1, time2, and time3, the variances of the differences between time1 - time2, time1 - time3, and time2 - time3 should be roughly the same.
  3. 点击右下角Calculate, 计算出样本量。

第三步,Reprots of power analysis

需要报告的信息:

  1. 模型类型(ANOVA or t-test)
  2. 每一个估计参数的具体值
  3. 效应量(ES)的具体来源(元分析还是前人实证研究结果),如何确定的效应量大小

References

  • 非常全面的样例示范,强烈推荐: http://www.mormonsandscience.com/gpower-guide.html
  • http://www.biostathandbook.com/power.html
  • Simmons, J. P., et al. (2013). “Life after p-hacking.”
  • http://52brain.com/blog-3811-1472.html
  • http://www.openedscience.org/?p=45
  • Cohen, J. (1992). “A power primer.” Psychological Bulletin 112(1): 155.
  • Cunningham, J. B. and E. McCrum-Gardner (2007). “Power, effect and sample size using GPower: practical issues for researchers and members of research ethics committees.” Evidence-Based Midwifery 5(4): 132-137.
  • Simmons, J. P., et al. (2013). “Life after p-hacking.”
  • 胡竹菁, & 戴海琦. (2011). 方差分析的统计检验力和效果大小的常用方法比较. 心理学探新, 31(3), 254-259.
  • http://www.statisticssolutions.com/effect-size-for-a-power-analysis/
  • Cohen, J. (1988). Statistical power analysis for the behavioral sciences. 2nd. New York, Psychology Press.