经过前面两期的讲解,我们了解了GWAS分析需要的数据类型和数据质控方法,终于来到我们的核心内容:关联分析。
GWAS分析一般会构建回归模型检验标记与表型之间是否存在关联,其中:
① 零假设(H0 null hypothesis)是标记的回归系数为零, 标记(即SNP)对表型没有影响。
② 备择假设(H1,Alternative Hypothesis)是标记的回归系数不为零,标记(即SNP)和表型相关。
在第一期中我们提到表型数据的类型包括三种:数量性状、质量性状和分级性状,我们在进行关联分析之前,需要根据不同类型的表型选择合适的关联分析方法,同时为了减少假阳性,通常对p值进行矫正。
1 连续性状
连续性状是指那些在群体中呈现连续分布的性状,如身高、体重、血压等。可以选择的方法有T检验(Student’s test)和线性回归(linear regression)。
--assoc,卡方检验+优势比,表型若为数字则视为字符,不允许有协变量;
--linear,线性回归,表型为纯数字,允许有协变量,如果考虑协变量,加上--covar即可。
# assoc关联分析不校正/校正p值
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_assoc
注意:会多出一个*.assoc.adjusted后缀文件。
# linear关联分析不考虑协变量、不校正/校正p值
plink --bfile test --linear --out result_linear
plink --bfile test --linear --adjust --out result_linear
注:协变量使用 --covar 参数添加。
2 阈值性状
阈值性状即表型值数据是两类数据:1和2(其中0和-9都表示缺失),比较常见的是对照组(用1表示)和实验组(用2表示)。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)
--assoc,卡方检验+优势比,不允许有协变量;
--logistic,逻辑回归,允许有协变量,如果考虑协变量,加上--covar即可。
注:这里的协变量比如性别、年龄等信息。
# assoc关联分析不校正/校正p值
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_assoc
注意:会多出一个*.assoc.adjusted后缀文件。
# logistic关联分析不考虑协变量、不校正/校正p值
plink --bfile test --logistic --out result_logistic
plink --bfile test --logistic --adjust --out result_logistic
注:协变量使用 --covar 参数添加。
3 分级性状
我们将通过人为观察而可以进行分类的离散型变量统称为分级性状。但要注意一点,分级性状最终的定义,还是部分依赖于我们的经验。 例如,对于植物的抗病性,我们既可以按照叶片病斑的面积(0~100%),将其定义为连续型的数值型性状,也可以人为设定阈值将其定义为分级性状(高、中、低)。可以选择的方法有卡方检验和逻辑斯蒂回归(X2关联分析和logistic分析)。
--assoc,卡方检验+优势比,不允许有协变量;
--logistic,逻辑回归,允许有协变量,如果考虑协变量,加上--covar即可。
# assoc关联分析不校正/校正p值
plink --bfile test --assoc --out result
plink --bfile test --assoc --adjust --out result_adjust
# logistic关联分析不考虑协变量、不校正/校正p值
plink --bfile test --logistic --out result_logistic
plink --bfile test --logistic --adjust --out result_logistic
注:协变量使用 --covar 参数添加。
到这一步我们终于得到了梦寐以求的显著性结果,可以对结果表格进行pvalue筛选过滤假阳性,也可以进行可视化直观展示(即鼎鼎大名的Q-Q plot和Manhattan图),那如何进行可视化呢?别急,我们留到下一期。