文章

综述解读:从神经功能到基因调控前沿动物基因组中的非CG甲基化

2026-01-15     来源:     点击次数:59

近日,由西班牙安达卢西亚发育生物学中心Ozren Bogdanovic英国伦敦玛丽女王大学Alex de Mendoza共同通讯,在《Nature Genetics》(IF29/Q1)期刊发表题为“Non-CG DNA methylation in animal genomes”的重磅综述,系统梳理了动物基因组中非CG 的DNA甲基化(non-CG DNA methylation, mCH)的分布模式、分子机制与功能意义。本文将非CG 甲基化这一长期被忽视但日益重要的表观遗传修饰推向前沿视野,揭示其在神经发育、细胞身份维持及基因组稳定性调控中的保守性与独特性。
 

胞嘧啶DNA甲基化(5-methylcytosine,5mC)在动物基因组中广泛存在且主要发生在CG二核苷酸(mCG)上,其功能(如基因组印记、维持基因组稳定性)已广泛研究,但非CG DNA甲基化(mCH,其中H=A、C或T)的功能仍知之甚少。

在大多数脊椎动物组织中,mCH水平通常较低(约1-3%),但在神经组织、卵母细胞和胚胎干细胞中较为普遍,且与神经发育障碍相关联。此外,在哺乳动物中,mCH早在数十年前就被观察到,但由于其在大多数组织中基因组水平较低,且常与mCG共定位,其功能长期存在争议,一度被认为是DNMT脱靶效应或亚硫酸盐转化假象。随着研究的深入,发现源于不同组织背景下甲基化维持机制的差异,mCG由DNMT1维持甲基化,而mCH在每次细胞分裂后都需要不断重新甲基化是其低水平的主要原因(图1a)。

大规模平行测序技术和全基因组重亚硫酸盐测序(WGBS)的出现,使科学家们能够以前所未有的视角观察5mC的序列背景,并根据细胞类型和基因组特征进行分类。在此基础上开展的研究不仅证实植物基因组中的先验知识,还在人胚胎干细胞(hESCs)、人生殖细胞及哺乳动物神经元中发现了CAG背景下mCH的显著富集(图1b-c)。随后,研究逐渐扩展至脊椎与非脊椎动物谱系,这为理解mCH的功能与基因组分布模式提供了跨物种视角。然而,mCH对基因组调控的贡献程度尚不完全明确,尤其在哺乳动物中,mCG与mCH共有的DNMT3家族酶沉积机制,导致难以构建特异性影响mCH的遗传模型。

 
图1:不同细胞类型中mCH沉积机制及基因组mCH水平
 
mCH在多能性与种系发生两大发育期的独特动态变化
尽管大多数哺乳动物体细胞的mCH水平极低,但在雌性生殖细胞、hESCs及诱导多能干细胞(iPSCs)中却检测到显著富集。在hESCs中,mCH以CAG环境为主,偏好性沉积于基因体区域,但在转录因子结合位点及远端调控元件中则被清除。这种分布模式在iPSCs中类似,但二者在mCH含量与定位上存在系统性差异,标准化重编程产生的iPSCs表现出大片段差异甲基化区域(DMRs),其CH低甲基化区域与H3K9me3修饰富集区重叠,提示iPSC状态存在更广泛表观基因组重编程缺失(图2a)。相比之下,通过瞬时原始态处理重编程(TNT)产生的iPSCs则能恢复至更接近hESCs的表观状态(图2a)。这种差异凸显了mCH作为评估重编程效率与干细胞身份生物标志物潜力。

在哺乳动物生殖系中,mCH呈现显著的性别差异。雌性生殖细胞在卵母细胞生长期积累mCH,而雄性生殖细胞虽在原始生殖细胞与新生前精原细胞(prospermatogonia)中表现出峰值,但在成熟精子中几乎完全丢失。卵母细胞中高丰度的mCH(约65%的甲基化胞嘧啶位于CH位点)在CAG与CAC环境中随成熟进程持续增加,且与mCG共定位于基因体与重复序列。值得注意的是,老年小鼠卵母细胞的全局mCG水平下降伴随mCH上升,鉴于年龄相关的卵母细胞质量衰退,mCH可能作为评估卵母细胞质量的敏感指标。

具体而言,hESCs中DNMT3B偏好CAG环境,而DNMT3A则对CAC表现出更高的偏好性,且二者均可被活跃组蛋白标记H3K36me3通过PWWP结构域招募(图2a)。而在卵母细胞中,DNMT3A与DNMT3L(DNMT3-like)主要负责mCH沉积。有趣的是,在小鼠中敲除DNMT3A与DNMT3L的ADD结构域(识别未甲基化H3K4)导致全局mCG丢失,但少数位点却出现mCG与mCH的协同性异常积累,这一发现挑战了mCH仅作为mCG副产物的观点,暗示其可能具有独立于mCG沉积的调控机制。总体而言,mCH在多能性与生殖系状态中呈保守性存在,但其建立机制具有细胞类型特异性,且与发育状态的紧密关联提示其在评估细胞质量与身份中的诊断价值。


图2:脊椎动物中mCH的染色质环境与发育动态
 
mCH在哺乳动物神经系统中的核心调控与病理关联:mCH Reader、writer、调控效应与表型
在哺乳动物脑中,mCH(主要为CAC环境)是5mC的主要形式,其丰度甚至超过mCG。这种修饰特异性沉积于基因体,且其水平与基因表达呈现强烈的负相关(图2a)。神经mCH在出生后快速积累,且主要富集于神经元。即使在胶质细胞中,mCH仍参与抑制神经特异性基因的表达,这些基因在神经元中通常呈低甲基化状态。从功能视角看,mCH在脊椎动物谱系中广泛关联基因沉默,尤其偏好性抑制长基因及参与神经发育的基因群。

DNMT3A是神经mCH的主要writer蛋白,其被H3K36me2广泛招募至拓扑关联结构域(topologically associating domains),建立区域性mCH,而活性组蛋白标记如H3K36me3则排斥DNMT3A。

MeCP2(methyl-CpG-binding protein 2)是目前唯一已知的mCH识别蛋白(reader)(图2a)。MeCP2在神经元中表达量极高,其基因组结合模式广泛而弥散。MECP2基因突变导致一种名为Rett综合征(RTT)的X连锁显性神经发育障碍。MeCP2被招募至mCH富集区后,促进NCoR共抑制复合体组装,而RTT相关突变直接破坏这一互作。关键实验证据来自仅能结合mCG而不能识别mCH的MeCP2嵌合体,其在小鼠中仍导致RTT样症状,强烈暗示mCH是MeCP2在大脑中发挥功能的主要信号。

同样,条件性敲除小鼠脑中DNMT3A导致mCH丢失,产生类似RTT表型。尽管存在PRC2介导的H3K27me3代偿机制,但无法完全恢复基因调控正常化。单细胞亚硫酸盐测序(scWGBS)研究进一步揭示,mCH是区分神经元亚型的更有效标记物,其异质性在脑区、细胞类型间呈现精细差异。

最近两项大规模单细胞研究证实,mCH能更精准定位神经元身份,且长基因的高mCH水平与染色质环(loop)形成抑制相关,提示MeCP2与mCH协同抑制基因激活与三维基因组结构重塑,从而锁定分化程序。最新斑马鱼研究证实其神经mCH调控模式与哺乳动物高度保守,由DNMT3A的鱼类同源物Dnmt3aa与Dnmt3ab催化CAC环境甲基化,表明这是一条脊椎动物共有的神经发育调控轴。
 
mCH在胚胎发育与演化中的作用:从哺乳动物扩展至胚胎发育全程与演化比较
在哺乳动物中,mCH主要从卵母细胞遗传而来。受精后,mCH水平随着每次细胞分裂而下降;在小鼠中,卵母细胞中约3%的胞嘧啶在mCH背景下发生甲基化,到2细胞期降至约1%,在内细胞团(ICM)中几乎消失。在人类样本中也观察到类似的水平和发育动态。因此,mCH在胚胎发生的极早期阶段丢失,随后在神经系统发育过程中以及卵子发生过程中重新出现(图2b)。

在斑马鱼中,研究者在镶嵌卫星重复序列(mosaic satellite repeats, MoSAT)内的TGCT序列背景下观察到高水平的mCH。这些重复序列位于长基因的内含子和基因间区域,通常富集组成型异染色质组蛋白修饰H3K9me3。值得注意的是,这些区域缺失mCG。MoSAT mCH模式由硬骨鱼特异性的DNMT3直系同源物Dnmt3ba建立,该酶包含钙调蛋白同源(CH)域。在斑马鱼中,mCH在配子中富集,卵母细胞和精子都表现出高mCH水平(图2c)。在早期胚胎发育过程中,MoSAT mCH被稀释,在合子基因组激活(ZGA)时期达到最低点。ZGA之后,mCH水平增加。与哺乳动物不同,斑马鱼中的MoSAT mCH不仅在大脑中重新积累,也在源自所有三个胚层的成年组织中重新积累(图2c)。在青鳉(与斑马鱼大约在1.5-2亿年前分化的远缘硬骨鱼)中,MoSAT mCH仅存在于卵母细胞中,并在受精后丢失。这种模式反映了斑马鱼中观察到的动态,即mCH水平在ZGA时达到最低点,然后在分化胚胎中重新建立。

在脊椎动物谱系中,mCG和mCH背景下的整体5mC水平通常较低。虽然越来越多的证据表明mCH可能存在于多种物种中并具有重要的调控功能,但非脊椎动物中的mCH研究需高度审慎。蜜蜂头部虽检测到CA环境mCH且与蜂王/工蜂差异相关,但其水平极低(约0.2%)且缺乏保守motifs;蚂蚁、蛾类、牡蛎等物种虽有报道,但大多未排除单核苷酸多态性(SNPs)干扰或未设立阴性对照。

尽管如此,鉴于mCH在脊椎动物神经系统中的保守积累模式,其在昆虫中可能代表保守的发育特征,或仅因缺乏有丝分裂后清除机制而累积的脱靶效应。因此,mCH在脊椎动物中呈现清晰的组织与阶段特异性,而在非脊椎动物中的存在与功能仍需严格验证。
 
mCH在重复基因组调控中的作用:挑战其作为单一沉默标记的传统认知
重复序列(repetitive elements)占人类基因组的50-70%,在斑马鱼中约50%,在某些脊椎动物中高达90%。这些重复元件通常被mCG及H3K9me3等抑制性标记沉默,并组织为组成型异染色质。

在脊椎动物中,mCH主要富集于短散在核元件(SINEs)与长散在核元件(LINEs),但其精确功能尚未充分探索。鸟类研究报道mCH水平与转座元件表达存在微弱但显著的负相关;斑马鱼脑中,Tc1-mariner超家族成员TDR与TC1DR3及其他含潜在MeCP2结合位点(5mCAC)的转座元件均在CH位点高甲基化,提示mCH通过促进MeCP2结合参与转座元件沉默。

哺乳动物脑中MeCP2抑制LINE-1逆转座活性提供了进一步证据。但mCH在重复元件上的功能呈现显著的背景依赖性,小鼠ESCs中主要卫星重复序列(mSat)虽具有高mCH与mCG,但其转录活跃且与正确异染色质组织相关,提示mCH可能参与染色质高级结构构建。同样,硬骨鱼类MoSAT mCH在ZGA前胚胎与成体组织中丰度极高,但其功能可能不必然关联转录抑制。这与hESCs中基因体mCH与转录活性正相关的现象形成对比。跨人鼠多组织比较研究进一步揭示,mCH在CA与CT位点呈细胞类型特异性且可能保守,表明其富集模式受细胞类型与重复类别的双重调控。

综上所述,mCH在重复基因组中的功能远比简单的“沉默标记”复杂,其在特定背景下可能参与基因激活、染色质组织或结构维持,且植物与动物中mCH介导的CG缺失重复序列调控可能更为相似,但这需要严格的功能验证。
 
mCH研究在实验与生信分析中的技术瓶颈与新兴解决方案
在实验检测方面,基于亚硫酸盐转化方法(WGBS)仍然是检测甲基化胞嘧啶的金标准(图3a)。此外,基于酶法转化甲基化测序(EM-seq)通过TET2氧化与APOBEC3A脱氨协同作用,将未修饰胞嘧啶转化为尿嘧啶(图3a)。ONT则通过检测DNA过孔时的电流变化直接识别修饰碱基,无需化学转换,其长读长优势极大改善重复区可比对性,但mCH检测在低丰度场景下仍具挑战性。此外,非转化(nonconversion)率导致的假阳性是致命陷阱,未甲基化胞嘧啶未能完全转换为尿嘧啶,在CH远多于CG的基因组中,即使0.5-1%的非转化率也可产生大量假阳性调用(图3b)。由于在低甲基化物种中此问题尤为突出,必须引入非甲基化对照(如λ噬菌体DNA)以独立评估非转化率。线粒体DNA虽曾被提议作为内参,但其甲基化状态本身存在争议且可能受环形构象影响转换效率,故外源对照更为可靠。

虽然存在许多用于分析5mC的工具和流程,但大多数是针对mCG优化的,许多流程仍然默认报告mCH和mCHG以适应植物甲基化模式,可能不适用于脊椎动物mCH。此外,传统短读长测序技术的主要限制是其在重复基因组区域的有效性降低,在重复元件中难以可靠比对,尤其在转化后C→T背景下。长读长技术虽改善此问题但尚未标准化,且内置错误率需额外校正策略(图3c)。

与mCH分析相关的另一个计算挑战是甲基化的准确识别(图3d),SNP导致的模糊序列背景是另一重大偏倚,CG位点经演化突变变为CA/TG,若参考基因组未反映个体基因型,则实际存在的mCG会被错误归类为mCH(图3d)。此问题在非脊椎动物中因杂合度更高而加剧。为了减少这种偏差,应过滤掉源自含有SNP区域或在WGBS或EM-seq数据中确认为CG的mCH识别。
最后,识别CH背景下的DMRs尤其困难。虽然mCG通常以密集簇形式出现,便于检测离散的DMRs,但mCH往往分布更稀疏。因此CH DMRs可能跨越更大的基因组区域,远超传统工具优化范围。对于特定基因体或重复元件中的mCH分析,可以手动计算注释区域上的甲基化水平。目前,将基因组分箱(binning)并比较箱(bins)之间的甲基化水平是检测CH DMRs最可靠方法之一。总之以单碱基分辨率评估mCH可行,但必须仔细考虑实验和计算上的挑战。

图3:mCH检测和定量中的挑战和瓶颈

未来展望
mCH研究领域仍存在许多值得探究的未解之谜。
首要问题是mCH究竟是高度保守的调控机制、谱系特异性趋同演化的产物,还是DNMT3活性的无功能副产物?支持“副产物假说”的证据包括共有的DNMT3酶系、mCH与mCG的基因组共定位,以及ADD结构域双敲小鼠中mCH在mCG上调位点区域的异常积累。然而,mCH区别于mCG:1.不同细胞类型间mCH水平的显著差异(如神经元与卵母细胞高、体细胞低)与高度稳定的mCG水平形成明显对比;2.硬骨鱼类Dnmt3ba特异性靶向CG缺乏的MoSAT重复序列;3.植物中mCH沉默CG转座元件缺失;4.mCH在多组织中呈现与mCG不同的发育动态转变;此外,在哺乳动物大脑中,mCH通过MeCP2的抑制活性介导基因沉默,且15-20%的MeCP2靶位点同时包含mCG,使得特异性解析mCH功能极为困难。已有研究提示动物与植物mCH介导的重复序列调控可能高度相似,属于功能趋同证据,但仍需进一步验证。

其次,DNMT3家族介导mCH沉积的招募机制亟待深入解析。相关研究已描绘了多重潜在通路(图4):1.序列特异性转录因子可招募DNMT3至靶位点;2.DNMT3的特殊域如斑马鱼Dnmt3ba的CHD可能赋予其靶向特异性;3.高密度的DNA基序(如串联重复)可增强DNMT3部分密度;4.H3K36me2/3通过PWWP域招募等染色质环境将mCH沉积与转录活性区域机械耦联;5.蛋白-蛋白互作(如DNMT3L-DNMT3稳定化)可促进甲基化效率;6.重复元件形成的DNA二级结构(如G-四链体)也可能辅助DNMT3靶向。总之,这些通路提示mCH沉积是序列、染色质与酶协同性的综合结果。

第三,哺乳动物模型的构建需要进一步优化。斑马鱼等硬骨鱼类拥有可分离mCH与mCG效应的特有DNMT3,其Dnmt3ba敲除模型中mCG缺失虽可被冗余DNMTs补偿,但mCH丢失无法挽救。

第四,单细胞与第三代长读长技术的融合将提供前所未有的分辨率,揭示细胞类型特异性的mCH调控网络。

第五,改进ONT的mCH检测灵敏度或开发深度学习模型(需针对组织细胞类型训练)可发现新调控模式。

第六,表观基因组工程技术可实现mCH的靶向添加(writer)或去除(eraser)。
最后,mCH在基因调控与重复元件调控中的具体功能仍未完全清楚,需要分子与计算工具的协同创新来进一步揭示。未来数十年,将是mCH生物学的黄金时代,其作为神经组织中新兴基因调控标记的地位已确立,但其在重复元件调控、细胞身份维持及疾病中的精确机制仍有待深度挖掘。

 
图4:mCH沉积的潜在机制
 
相关阅读
 
参考文献:Brethouwer T, de Mendoza A, Bogdanovic O. Non-CG DNA methylation in animal genomes. Nat Genet. 2025 Sep 11. doi: 10.1038/s41588-025-02303-1.
相关文章 更多 >