近年来,DNA因其高密度、低能耗、长寿命等特性,成为极具潜力的下一代数据存储介质。然而,DNA在测序过程中易产生替换、插入、缺失等错误,严重影响数据解码的准确性与完整性。
近日,南方科技大学蒋兴宇团队在 《ACS Nano》 上发表题为《Integrated Error Correction to Enhance Efficiency of Digital Data Storage Based on DNA Nanostructures》的研究,提出了一种集成纠错算法IEC,显著提升了DNA数据存储的效率和可靠性。

IEC算法三大核心机制
1、 “头-尾”区域Levenshtein距离聚类
传统Levenshtein距离计算复杂度高,不适用于海量DNA序列。IEC仅提取序列的头部和尾部区域进行相似度计算,将复杂度从 O(m2)(m 为全序列长度)降至 O(n2)(n 为头尾区间长度),聚类速度提升10倍,且对头尾错误具备强容错能力。

2、基于Sliding Window-Optimized的Hamming距离纠错
传统Hamming距离要求序列等长,IEC引入滑动窗口机制,实现对变长序列的插入、缺失、替换错误检测与校正。

3、Score-weighted Majority Voting剔除“噪音序列”
在聚类与纠错后,IEC采用分数加权的majority voting机制,进一步提升序列选择的准确性。相比传统majority voting,缺失序列率降低约2%,覆盖率和准确率也更高。

实验验证:
团队以医疗影像数据(MRI 图像,122KB) 为存储对象,通过 Twist Bioscience 合成 DNA oligo pool,经多轮PCR 扩增(模拟长期使用中的序列退化),全面验证IEC的实用性。
1、研究中使用的DNA oligo pool通过杭州沃森生物订购,包含4468条DNA序列,每条长度200 nt,结构如下:
2、合成后的DNA经过多轮连续PCR扩增,模拟多次读取中错误的累积效应。
扩增产物经琼脂糖凝胶电泳验证后,在Illumina平台上进行150 bp双端测序。发现IEC处理后前4轮均能成功解码,5轮后仍能保持80%以上,序列效率也显著提高,待解码序列数毕传统DNA Fountain方法减少0.5%-29.89%,数据量缩小3个数量级。

IEC算法通过三重纠错机制协同工作,在不依赖高冗余编码的前提下,实现了对DNA存储中常见错误的高效校正。其低冗余、高密度、强纠错的特性,适用于医疗数据、个性化医疗、大数据存储等场景。
代码已开源:
https://github.com/lasso-sustech/IEC_Codes/tree/reponse
参考文献:
Mao, C. et al. ACS Nano 2025. DOI: 10.1021/acsnano.5c08183