导语
乳腺癌是全球女性最常见的癌症,发病率和死亡率较高。全基因组和外显子组遗传关联研究已成功鉴定出300多个乳腺癌易感位点,但大多数基因座和特定基因变异的机制仍未得到表征,极大的限制了遗传易感性基因座向新疗法和精准医疗工具的转化。孟德尔随机化(Mendelian Randomization,MR)是一种基于全基因组测序数据(GWAS数据),利用单核苷酸多态(SNP)作为变量工具(Instrumental Variable,IV),用于揭示因果关系的新型流行病学方法。简而言之,孟德尔随机化是利用自然界中随机分配的基因对表型的影响,来推断表型对疾病的影响。与GWAS相比,MR利用了更狭窄的测试空间,增加了统计能力,并且本质上支持因果基因鉴定。MR可以通过暴露和结果的遗传共定位分析得到进一步支持。MR的相关性通过随机对照试验(RCT)中已证实在疾病中具有病因学或因果作用的药物靶点的回顾性分析结果可靠。
循环蛋白具有许多适合使用MR发现乳腺癌生物学的特征。首先,血浆蛋白质组已被证明可以反映癌症的正常生理和致病生物学过程。其次,高通量和高精度测量手段可以检测到循环蛋白。第三,最近的研究表明,大多数循环蛋白与顺式作用蛋白数量性状位点 (pQTL) 有关,即位于距离蛋白质编码基因 1 Mbp 以内。第四,单个顺式-pQTL可以解释蛋白质中相对较大比例的方差,使其成为使用MR进行因果推断的统计学上强大的工具。但到目前为止,还没有关于女性群体pQTL的报告。
Olink采用PEA(Proximity Extension Assay)检测技术,将具有特定核苷酸序列探针的一对抗体与被检测蛋白特异性结合,探针通过末端5bp配对碱基互补结合,在延伸酶的作用下形成双链模板,利用qPCR或NGS进行检测。根据特异性的核苷酸序列信号确定常见疾病和生理过程的典型蛋白biomarker含量,用于预测疾病和治疗结果、确定新的药物靶点、验证药物安全性和有效性,加速蛋白组向精准医疗应用转化。在这里,本文使用 Olink PEA Explore 检测在采样时未诊断为乳腺癌的598名女性的血浆样本,一共测量了2929种独特的蛋白质。对蛋白质水平进行了遗传关联分析以鉴定cis-pQTL,在BCAC乳腺癌风险的病例对照荟萃分析中使用cis-pQTL作为乳腺癌MR分析的工具变量,以及在FinnGen的第二次乳腺癌病例对照荟萃分析中复制了MR结果。最后,通过可视化和评估蛋白质和乳腺癌遗传关联的共定位来跟踪MR分析中鉴定的重要蛋白质,并评估与已建立和新出现的乳腺癌风险因素的潜在因果关系。
主要技术
olink蛋白质组学;孟德尔随机化
研究结果
1. 样本特性
KARMA研究招募了瑞典两个地区70877名女性进行乳房x光检查,该项目的目的是确定乳腺癌的危险因素。该样本选择的目的是评估血浆蛋白生物标志物与2年内血液采样中乳腺癌发病率的关系;来自同一地区的299名随机对照女性,截至2021年,这些女性仍然没有患乳腺癌(表1)。
表1
2. 蛋白质分析、检测和质量控制
使用亲和蛋白质组学方法分析血浆样本。Olink PEA本质上偏向于被测量的蛋白质子集,需要测量尽可能多的蛋白质来最大限度地提高发现标志物的可能性。因此,使用Olink公司新推的Explore I和II panel,包含2949种蛋白质。在这组样本中,归一化蛋白表达水平高于检测限时,50%的样品可以检测到2213个(75%)。Explore II中的一组平均蛋白不如Explore I中的蛋白丰富。
3.血浆蛋白水平与乳腺癌发病率之间的关系
为了评估蛋白质与乳腺癌风险的关联,对每种超过QC的Olink蛋白进行回归模型拟合,该模型调整了抽血年龄、体重指数和样品储存时间,使用5%的错误发现率来确定统计显著性意义,所有蛋白质均未超过统计显著性阈值,因此,联合分析了事件病例和对照组的蛋白质水平。
4. 血浆蛋白水平与临床特征的关系
为了检验观察性蛋白质水平与KARMA女性临床特征之间的关系,将每个测量到的蛋白质与七个因素(年龄、饮酒量、出生次数、BMI、激素替代疗法(HRT)、绝经前后和当前吸烟情况)进行了回归分析,显示共有684种蛋白质与BMI相关,459种蛋白质与年龄相关(图2)。已有文章报道,随着 BMI 的增加,瘦素和脂肪酸结合蛋白 4 (FABP4) 的血浆水平升高;绝经后妇女的卵泡刺激素 (FSHB)较高,吸烟者的胎盘碱性磷酸酶(PLAP)水平较高。同时还包括一些较少描述的相关性,包括在绝经后和围绝经期妇女中糖氨酸(PAEP)和CHRDL2水平较低,糖蛋白激素α多肽(CGA)水平较高,以及在使用(HRT)的女性中骨调节素(OMD)水平较低。已知性状与蛋白质关联表明,数据质量令人满意,并且通过增加可检测蛋白质的数量,可以实现额外的性状与蛋白质的关联。
5. 顺式pQTL的鉴定和复制分析
为了确定使用MR进行下游因果关系测试的遗传工具,测试了编码2929种蛋白质中每种蛋白基因上下游1 Mbp范围内的基因变异和蛋白水平的关联,共观察到超过737个蛋白质的812个独立变异。在Explore I和II panel上很容易检测到蛋白质的pQTL,为737种蛋白质提供了潜在的MR工具。
将KARMA中鉴定的顺式pQTL在先前的报道中进行了复制分析。使用 Olink PEA 测量的 90 种蛋白质子集。KARMA研究中提供了90种蛋白质的测量结果。在这90种蛋白质中,33种蛋白质的顺式 pQTL 与 KARMA 相关。先前发表的基于Somascan蛋白质组学平台的cis-pQTL报告中查找了变异或处于高连锁不平衡变异。在KARMA研究中质量控制后可用的Olink蛋白与先前发表的基于Somascan平台的研究中测量的蛋白质的重叠为569种蛋白质。在KARMA中观察到的重叠蛋白质子集的 603 个显著顺式pQTL中,我们观察到374个蛋白质复制的证据。
6. 孟德尔随机化分析
使用来自KARMA顺式pQTL的蛋白质暴露进行了双样本MR分析,利用来自BCAC和FinnGen R8 - UK - biobank荟萃分析的结果数据调查乳腺癌风险的潜在因果效应。没有确定在KARMA中具有顺式pQTL的7个蛋白质的遗传代理,对730个蛋白质暴露进行了测试。有7个蛋白在发现研究中超过了显著性统计阈值(图3),5个蛋白在FinnGen和UK Biobank的独立乳腺癌病例/对照研究中复制,效果大小和方向一致(表4)。复制的蛋白按编码基因的名称显示为CD160、DNPH1、LAYN、LRRC37A2和TLR1。
表4
在ER+和ER-乳腺癌风险中,效应大小相似,表明这五种蛋白与ER+和ER-乳腺癌风险同等相关(表5)。
为了验证蛋白质在乳腺癌的病因学上的作用可能会通过乳腺癌风险因素影响,MR分析使用潜在乳腺癌危险因素的GWAS作为结果,包括初潮年龄、绝经年龄、腰臀比、乳房x线摄影密度、性激素结合球蛋白和IGF-1水平。在两个独立的数据集中,LRRC37A2显示出较晚的月经初潮年龄和较早的绝经年龄,以及较高的IGF-1水平的MR证据。CD160显示出较低的月经初潮年龄在病因学上的作用。综上所述,MR分析显示CD160、DNPH1、LAYN、LRRC37A2和TLR1的基因升高与乳腺癌风险相关,并且对ER+和ER -癌症具有相似的影响。
7. 共定位分析
所有顺式pQTL附近有显著MR证据的蛋白质的变异体都通过镜像图与相应的基因组区域一起进行了乳腺癌风险的共定位分析。DNPH1和LRRC37A2周围的顺式区域显示了蛋白质水平和乳腺癌风险之间的最强一致性。CD160、LAYN和TLR1顺式区域的铅pQTL不是乳腺癌风险p值最低的变异,但定位在相同的大小受限的基因组区域。我们认为顺式pQTL与乳腺癌风险共定位。
为了调查在本研究中发现的五种蛋白质中是否有任何一种曾被作为药物靶点进行过探索,在NIH Pharos Consortium, IUPHAR/BPS Guide To Pharmacology, DrugBank和http://ClinicalTrials.gov数据库中进行系统搜索。除了透明质酸靶向的LAYN蛋白外,其他都没有被注册为已知的药物靶标。
结论
在使用MR评估的730 种血浆蛋白中,五种蛋白的遗传水平升高与乳腺癌风险相关,即 CD160、DNPH1、LAYN、LRRC37A2 和 TLR1。这表明这五种蛋白在乳腺癌中起着病因或因果作用,为进一步评估其作为药物靶点的潜力提供了基础。
参考文献:
Mälarstig A, Grassmann F, Dahl L, Dimitriou M, McLeod D, Gabrielson M, Smith-Byrne K, Thomas CE, Huang TH, Forsberg SKG, Eriksson P, Ulfstedt M, Johansson M, Sokolov AV, Schiöth HB, Hall P, Schwenk JM, Czene K, Hedman ÅK. Evaluation of circulating plasma proteins in breast cancer using Mendelian randomisation. Nat Commun. 2023 Nov 24;14(1):7680. doi: 10.1038/s41467-023-43485-8. PMID: 37996402; PMCID: PMC10667261.