近日,南方科技大学生物医学工程系李依明课题组在高效单分子定位显微方法研究中取得突破。相关成果以题为《Scalable and lightweight deep learning for efficient high accuracy single-molecule localization microscopy》的论文,发表于国际权威期刊《Nature Communications》。
单分子定位显微镜(single-molecule localization microscopy,SMLM)作为三大主流超分辨成像技术之一,因其兼具超高空间分辨率与分子特异性,在显微成像领域拥有独特的优势。近年来,深度学习方法的引入显著提升了SMLM在低信噪比与高分子密度条件下的定位表现。目前,以高内涵筛选(high-content screening)为目标的高通量超分辨成像技术已成为SMLM发展的主要方向。现有深度学习网络因其模型复杂度高,在高通量成像场景中普遍存在处理延时长、资源消耗大等问题,严重制约了其在实际应用中的部署[1]。虽然已有一些模型压缩技术可降低网络复杂度,但往往以牺牲定位精度为代价,难以满足SMLM对高精度定位的需求。
重要发现
为解决上述问题,研究团队提出了LiteLoc—一种结合轻量化深度学习网络与可扩展竞争式并行数据分析策略的高效框架。该框架集成了由粗、细特征提取器组成的轻量化深度学习网络结构,并通过GPU集群并行分析实现性能最大化。在8张RTX 4090显卡上,LiteLoc实现了超过560 MB/s的数据吞吐量,能够实时处理现代sCMOS相机采集的高通量超分辨成像数据。本研究为基于深度学习的SMLM设立了一个兼顾定位精度与计算效率的新基准,为生命科学领域的高效、可扩展成像工作流程提供了高效的解决方案。
通常传统图像中的目标特征分布在整张图像的不同区域;相比之下,单分子定位数据可被分解为大量时空分离的模块,每个模块仅包含局部荧光分子的相关信息,彼此之间相互独立(如图1a所示)。然而,现有基于深度学习的单分子数据分析软件多采用串行处理模式,数据分析流程中CPU和GPU资源未被充分利用。LiteLoc提出的并行分析框架可以最大限度地利用硬件计算资源,将整个数据分析流程模块化为数据读取/预处理、网络推理、后处理/写入三个阶段,并通过优化不同阶段的并行处理机制,允许多张显卡以竞争式方式同时读取与分析处理数据。最终数据分析总耗时与子进程推理几乎一致(如图1b所示)。
传统卷积神经网络通常通过堆叠多个卷积层来提取多尺度特征。为实现更高效率,空洞卷积[2]因其在维持参数与计算量不变的同时能扩展感受野而受到关注。LiteLoc的轻量化深度学习网络结构由两部分组成:一是由空洞系数递增的空洞卷积组构成的粗特征提取器,二是由简化版U-Net[3]构成的细特征提取器(如图1c所示)。该结构通过增大感受野、增强特征复用效率与融合多尺度信息,有效地将模型复杂度降低了一个数量级(如图2a所示)。与此同时,LiteLoc在定位精度上与当前最优算法DECODE[4]相当甚至更优(如图2c-f所示)。并且,和传统的像素到像素的预测方式不同,LiteLoc采用的是结构化预测,直接面向单分子特征进行建模与定位,能够在原始像素分辨率的基础上达到超过像素尺寸十分之一的精度。结合GPU集群并行分析框架,LiteLoc实现了567.6 MB/s的总分析速度,超过常规SATA SSD的读取上限(500 MB/s)。
为评估LiteLoc的定位性能,研究团队分别对基于散光点扩散函数(point spread function,PSF)和6 µm DMO-Tetrapod PSF对标准结构U2OS细胞中核孔蛋白Nup96的成像数据进行了分析和重建(如图3所示)。研究[5]表明,Nup96双层环结构的平均直径约为107 nm,双层环间的平均距离约为50 nm。在散光PSF成像中,LiteLoc与主流定位算法DeepSTORM3D、DECODE均可在x-y平面中重构出核孔的环状结构(如图3b所示),并在x-z平面准确解析出靠近盖玻片的双层环结构(如图3c所示)。在6 µm DMO-Tetrapod PSF实验中,三种算法均能大致还原细胞上下表面的核孔蛋白分布(如图3e所示)。
然而,由于单个分子的光子分布范围更大、原始显微图像信噪比较低,DeepSTORM3D预测的定位点较为分散,数量也相对较少(如图3d所示);而DECODE重构的超分辨图像中出现了明显的网格状伪影。相比之下,LiteLoc重构图像未出现此类伪影(如图3i所示),显示出LiteLoc具有更高的定位准确度。在分析速度方面,在相同硬件条件下,LiteLoc的分析耗时仅为DECODE的28.8%、DeepSTORM3D的1.5%,显著提升了单分子数据的处理效率;在GPU集群的情况下,LiteLoc的分析速度可以达到DeepSTORM3D的500倍、DECODE的20倍。
在相对高密度条件下的基于散光PSF的微管成像实验中,DeepSTORM3D的重建结果同样会出现网格伪影(如图4所示)。其原因在于DeepSTORM3D采用二值化的上采样体素进行预测,使定位精度受到体素大小的限制。相比之下,LiteLoc和DECODE网络均可预测亚像素级偏移量。然而,DECODE往往将高不确定性的预测偏向像素中心,从而在重建中产生网格伪影。LiteLoc则通过密集连接提升定位置信度,并且空洞卷积引入了稀疏的像素级计算,有助于缓解中心偏置问题并减少伪影。此外,常规的深度学习SMLM软件支持的PSF建模方式有限,而在实际成像中研究者往往需根据具体成像需求选择不同建模方式。样条插值PSF[6]较为简单,适用于空间不变PSF建模;而矢量PSF[7]考虑多种光学参数,如波长、折射率与数值孔径,更适合用于包含深度与视场依赖像差的场景。LiteLoc同时支持两种PSF建模方式用于训练。
总结与展望
综上所述,研究团队提出了一套面向高通量SMLM的轻量化深度学习可扩展并行分析框架。该方法在保证高定位精度的前提下,将网络推理速度提升三倍以上,显著缓解了PSF复杂性、结构化数据伪影和成像条件多样性带来的挑战,适用于不同生物样本的超分辨成像任务。其在8张RTX 4090 GPU上的总处理速度超过560 MB/s,具备实时处理能力,未来有望应用于闭环成像系统与在线质量控制。此外,LiteLoc对计算资源的需求较低,便于集成至标准SMLM分析流程,并与聚类、追踪或结构重建等下游模块结合,实现高效一体化的超分辨数据处理流程。该框架及源码已在GitHub开源:https://github.com/Li-Lab-SUSTech/LiteLoc。
南方科技大学生物医学工程系的李依明副教授为该论文的通讯作者,2025届硕士生费悦、博后傅爽以及石伟为论文的共同一作,南方科技大学为第一通讯单位。该项目得到了国家重点研发计划、深圳市医学研究专项资金、国家自然科学基金委员会和南方科技大学校长卓越博士后资金等科研项目的支持。