文章

基于cfDNA表观基因组学+片段组学的多中心前瞻性队列研究

2025-07-22     来源:本站     点击次数:71

近日,中国医学科学院北京协和医院梁乃新副教授团队在《Clinical and Translational Medicine》(IF6.8/Q1)期刊发表题为《Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer》研究论文。研究利用cfChIP-seq+cfRRBS等分析阐明了表观遗传修饰与片段组学特征之间的调控关系。鉴定出的表观遗传调控基因为开发基于游离 DNA(cell-free DNA, cfDNA)片段组学的机器学习模型奠定关键基础。该模型在临床场景中展现出优越性能,为其向临床实践转化提供了有力支撑。
 

标题:Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer(基于细胞游离表观组学增强的片段组学模型用于肺癌早期检测)
发表时间:2025年2月5日
发表期刊:Clin Transl Med(CTM)
技术平台:cfChIP-seq、cfRRBS、cfDNA WGS等(易基因金牌技术)
DOI: 10.1002/ctm2.70225
 
本研究是一项多中心、前瞻性队列研究,旨在把“cfDNA片段组学(fragmentomics)”与“游离表观组学(cell-free epigenomes)”整合,开发可临床转化的机器学习模型,用于非侵入性早期肺癌检测。同时采用cfDNA多组学技术:cfChIP-seq(cfDNA染色质免疫沉淀测序)、cfRRBS(cell-free简化基因组DNA甲基化测序)及lpWGS(低通量全基因组测序)分析血浆 cfDNA 的表观基因组学和片段组学谱,从而鉴定出受多表观层面共同调控基因(multi-epigenetically regulated genes, MERGEs),并仅基于lpWGS的片段组学特征构建ensemble模型。模型在独立验证集中对I期肺癌的灵敏度达95.1%,对微浸润性腺癌(minimally invasive adenocarcinoma, MIA)的灵敏度达96.2%,凸显其在临床早期检测的潜力。

本研究结果表明,基于 cfDNA 片段组学的机器学习模型在独立验证队列中表现出出色性能。这些发现突出其作为肺癌早期检测有效无创策略潜力。

易小结
本研究以肺癌为突破口,系统展示cfChIP-seq与cfRRBS在血浆cfDNA多组学中的“定位—验证—降维”作用:前者利用H3K4me3抗体富集启动子活性信息,后者以单碱基分辨率绘制DNA甲基化谱。该思路不仅证实cfDNA表观组学在早期肿瘤检测的核心地位,也为后续泛癌种早筛提供可复制技术路线。

未来可将cfChIP-seq扩展至H3K27ac、H3K9me3等更多组蛋白修饰,cfRRBS亦可升级为全基因组甲基化测序,并与片段长度、核小体占位、染色质可及性联合建模,从而在肝癌、乳腺癌乃至泛癌种联合早检中延续相似研究策略,推动液体活检从单一突变检测迈向多维表观-片段整合的新阶段

研究方法
(1)研究设计
训练集:(AHHU)191例(恶性97、良性14、健康80)。
独立验证集:(PUMCH)185例(恶性114、良性19、健康52)。
纳入标准:≥18岁、胸部CT发现可疑恶性肺结节并最终取得病理;健康对照CT阴性。
排除标准:既往癌症、既往抗癌治疗、多原发肺癌。
(2)样本采集与cfDNA提取:10 mL全血收集,二次离心获得血浆,提取cfDNA。
(3)文库构建与测序
cfChIP-seq:H3K4me3抗体,1 mL血浆,检测cfDNA的组蛋白修饰。
cfRRBS:10 ng cfDNA经MspI酶切,检测DNA甲基化。
lpWGS:5 ng cfDNA建库测序,检测片段组学特征。
(4)MERGE基因筛选:癌vs良性、癌vs健康、癌vs(良性+健康)三对比。要求同一基因在≥2个比较中均显著,且跨组学方向一致(如H3K4me3上调且甲基化下调)。共609个基因被定义为MERGEs。
(5)模型构建
 
结果图形
(1)研究概况与队列特征
作者利用376例血浆样本设计一条从实验室到临床的完整队列:训练队列191例、独立验证队列185例,恶性结节、良性结节与健康志愿者分层清晰。肺癌病理分期以I期为主(训练61.9%,验证58.7%),验证队列纳入了CT筛查中难以定性的0期病灶。良性结节包括肉芽肿、错构瘤等。健康对照经双放射科医师确认无结节。两组在年龄、性别、吸烟史分布匹配。

 
图1:肺癌早期检测整体策略示意图
 
(A) 测序、数据分析与建模方法流程图。从血浆样本中提取cfDNA,依次进行cfChIP-seq、cfRRBS和lpWGS。随后提取并综合分析细胞游离表观组学特征,基于这些表观组学图谱筛选出肿瘤来源的表观异常基因,以确定MERGE候选基因。进一步利用lpWGS获得的片段特征(包括片段长度和末端序列)构建经MERGE增强的癌症检测模型。
(B) 用于模型开发与验证的队列示意图。训练队列用于MERGE基因筛选、模型训练和阈值确定;外部验证队列用于模型性能验证及后续生物学功能研究。
缩写:NDR,核小体缺失区域;MERGE,多表观共调控基因;BN,良性结节;HC,健康对照。
 
(2)多种游离表观组学特征协同影响cfDNA片段组学
在非癌样本中,将11479个基因按H3K4me3水平从高到低排序,揭示了高H3K4me3基因同时伴随启动子低甲基化与低NDR动态变化。高表达基因启动子区片段明显左移(<167 bp比例升高),提示开放染色质更易受DNase切割。且高表达基因呈现更高熵值、更少DNASE1L3/DFFB来源的末端,表明切割模式更紊乱。本研究结果表明cfDNA片段特征并非随机,而受细胞内表观状态“遗传”至血浆中。

 

图2:非癌样本中多种细胞游离表观组与片段组学特征的相关性

 
(A–C) 每行代表依据cfChIP-seq数据中H3K4me3水平由高到低排序,并划分为100个百分位的基因;共纳入具有可检测H3K4me3峰的基因11479个。每个基因DNA甲基化水平通过cfRRBS检测TSS±1.5 kb区域内CpG甲基化比例。NDR评分基于lpWGS测序得到的TSS位点核小体覆盖度确定。
(B–C)热图展示lpWGS数据中cfDNA片段长度分布(B)及片段末端序列特征(C)。在B中,x轴以5bp为窗口展示cfDNA片段长度;C中,熵值基于4-mer末端序列计算,DNase贡献度则利用F-profiles解卷积矩阵结合4-mer末端序列比例计算。
 
(3)肿瘤来源的片段组学变化在表观失调基因热点中富集
500-bp分辨率下,仅位于H3K4me3峰、CpG岛及DNase超敏位点附近的bin出现显著差异(>2σ),如4q21.22区HNRNPD基因。将基因按H3K4me3变化排序后,发现癌上调基因区段短片段(50-160 bp)比例增高,并富集癌特异末端序列;下调基因则相反。研究结果证实肿瘤信号集中于表观调控热点,为后续MERGE筛选奠定依据。

 
图3:肿瘤来源片段组学热点与细胞游离表观组学变化
 
(A) 4号染色体q21.22区域,其中阴影条带标示各基因从启动子至第一外显子的位置。图中呈现了包括H3K4me3(来自健康个体P292与癌症患者P318的cfChIP-seq数据)、CpG岛及开放染色质区(以A549肺癌细胞系的DNase I超敏位点为代表)在内的表观遗传修饰。片段组学特征——FSR(0–150 bp与151–220 bp片段的比值)及CCG末端序列比例——以500 bp窗口在全部癌(红色)与非癌(蓝色)样本中计算,差异用>2σ的显著窗口高亮显示;右侧放大了两处显著变化(i)和(ii)。
(B) 两组中HNRNPD与TMEM150C基因的片段长度分布。
(C) 两组间HNRNPD基因的细胞游离表观组学变化。
(D) 每行表示按H3K4me3变化幅度(癌vs非癌,从增加到减少)排序并划分为100个百分位的基因;中心热图展示片段长度分布(10 bp窗口)。
(E) 对H3K4me3变化最大1%基因(增加、减少、无变化)计算癌缺失末端序列的比例。
 
(4)肺癌中MERGE基因的鉴定与特征
经三对比交集分析,共鉴定出609个MERGEs;其中27个受三种表观层面共同调控。功能富集结果显示GTPase信号通路、EGFR/EGF通路显著富集。转录因子结合motif分析显示SP/KLF家族(SP2、KLF5/6、CTCF)显著富集。这些基因及其通路可能是早期肺癌驱动事件,且受Sp/KLF家族表观调控。

 
图4:多表观共调控基因(MERGEs)的鉴定与特征
 
(A) 维恩图展示三种比较分析中鉴定出的MERGEs的交集:癌 vs 健康(蓝色)、癌 vs 良性(绿色)和癌 vs 非癌(黄色)。图中数字表示各比较组特有或共有的MERGEs数量。
(B) MERGEs中表观遗传修饰的交叉情况。水平条形图表示受每种表观修饰(甲基化、NDR、H3K4me3)单独调控的基因总数;垂直条形图展示不同修饰组合共同调控的基因数。
(C) 使用GO分子功能、Reactome和WikiPathway数据库对MERGEs进行功能注释。
(D) EGFR信号通路代表基因CAV2、AP2A1和PRKCI在健康与癌症样本中的表观遗传谱。箱线图展示H3K4me3水平(RPKM)和核小体缺失区(NDR)评分。
(E) MERGEs启动子区的motif富集分析。左:MEME-ChIP在TSS±1 kb内鉴定出的5个显著富集SP/KLF家族motif序列标志;右:对应motif相对TSS的富集频率分布图。
(F) MERGEs的遗传扰动相似性分析(GPSA)。点图展示富集的C2H2锌指转录因子。
 
(5)基于片段组学的MERGE集成模型实现肺癌精准检测
在训练集,MERGE模型AUC=0.94(95%CI 0.90-0.97),显著优于全基因组模型。验证集AUC=0.94(95%CI 0.90-0.98),灵敏度90.4%,特异度83.1%(表1)。亚组I期95.1%、MIA 96.2%、<1 cm结节76.5%仍保持高灵敏度。对良性结节区分AUC=0.816,提示可减少LDCT假阳性。临床拦截模型估算揭示年度筛查可将晚期肺癌比例降低81%,5年生存率自38.8%提至67.5%。

 
图5:基于MERGE的集成模型用于肺癌检测的构建与评估
 
(A) 训练集中,ROC 曲线比较全基因组BPM与基于 MERGE 的 BPM 在区分癌与非癌受试者时的性能。
(B) 训练集中,ROC 曲线展示基于 MERGE 的集成模型与三个基本模型(BPM、FSR、FSD)性能。
(C) 验证集中,ROC 曲线评估基于 MERGE 的集成模型与三个基本模型的表现。
(D) 箱线图呈现训练集与验证集中模型得分的分布。
(E) 基于 MERGE 的集成模型在不同肿瘤分期的灵敏度。
(F) 基于 MERGE 的集成模型在不同病理及影像亚组中的灵敏度。
(G) 合并队列中,ROC 曲线评估模型区分肺癌与良性肺结节的性能。
(H) 合并队列中,箱线图显示模型得分在不同病理及影像亚组中的分布。
缩写:BPM,断点 motif;FSD,片段长度分布;EDM,末端 motif;FSR,片段长度比。

 
表1:基于MERGE的集成模型在训练集、验证集和组合集中的诊断性能。
 
(6)MERGE表观遗传模式比对肺腺癌进展轨迹
对LUAD进展谱(AAH→AIS→MIA→IAC)进行cfDNA H3K4me3无监督聚类分析,分析结果揭示了从AAH即出现异质性表观变化,且随着病变向微浸润、浸润阶段推进,MERGE启动子H3K4me3谱与IAC的相似度逐渐升高,相关性/欧氏距离矩阵显示MIA与IAC最接近(r=0.96),提示侵袭性获得关键阶段。5个代表性MERGE(KDM4C、OXSR1、RAD17、RUNX1、NPR3)的启动子H3K4me3水平随病理进展呈阶梯式增强,提示这些表观重编程事件不仅是伴随现象,更可能参与并推动肿瘤侵袭转移。本研究结果表明cfDNA H3K4me3可动态监测肺腺癌演进,为早诊及干预时机提供新指标。

 
图6:多表观共调控基因在肺腺癌进展中的H3K4me3模式
 
(A) 肺腺癌发生发展过程示意图。
(B) 基于MERGE启动子区H3K4me3 cfChIP-seq信号的无监督聚类热图,覆盖肺腺癌不同病理阶段。每一列代表某一亚型全部样本的平均富集水平(mean RPKM),每一行代表一个基因;颜色从红(高)到蓝(低)表示H3K4me3丰度。
(C) 肺腺癌各亚型间H3K4me3水平的相关矩阵,数值为Pearson相关系数。
(D) 肺腺癌各亚型间H3K4me3水平的欧几里得距离矩阵,数值为计算所得距离。
(E) 箱线图展示健康对照与每种肺腺癌亚型之间样本层面的H3K4me3谱欧几里得距离。
(F) 箱线图显示KDM4C、OXSR1、RAD17、RUNX1和NPR3R五个基因在肺腺癌不同进展阶段的启动子H3K4me3富集水平(以启动子RPKM计)。
缩写:AAH,非典型腺瘤样增生;AIS,原位腺癌;MIA,微浸润性腺癌;IAC,浸润性腺癌。
 
结论和启示
肺癌相关cfDNA片段特征并非随机分布,而是集中在由表观遗传学精细调控的基因区域。MERGE-增强的片段组学模型以单一低通WGS实现了对早期肺癌的高灵敏度、高特异度检测,兼具成本效益与临床可落地性。未来研究可推广到其他癌种,或进一步结合突变、片段组学、表观组学构建多模态早筛体系。
 
cfDNA测序技术在本研究中的重要作用
cfChIP-seq:在血浆水平捕获H3K4me3标记的启动子区域,直接映射肿瘤转录活性。
cfRRBS:以单碱基分辨率获得启动子甲基化信息,与H3K4me3形成互补,锁定真正被激活/抑制的基因。
lpWGS:低成本产生全基因组片段长度、末端序列等信息,是最终临床检测的唯一数据输入。
三者共同构成“发现-验证-转化”完整技术链,示范了cfDNA多组学技术的协同潜力。

参考文献:
Wang Y, Guo Q, Huang Z, Song L, Zhao F, Gu T, Feng Z, Wang H, Li B, Wang D, Zhou B, Guo C, Xu Y, Song Y, Zheng Z, Bing Z, Li H, Yu X, Fung KL, Xu H, Shi J, Chen M, Hong S, Jin H, Tong S, Zhu S, Zhu C, Song J, Liu J, Li S, Li H, Sun X, Liang N. Cell-free epigenomes enhanced fragmentomics-based model for early detection of lung cancer. Clin Transl Med. 2025 Feb;15(2):e70225. doi: 10.1002/ctm2.70225.
相关文章 更多 >