文章

InDraw全球领跑:AI在化学结构识别模型的实测

2026-03-30     来源:本站     点击次数:67

AI for Chemistry, AI for Drug 领域,各大公司非常关注,英伟达研究团队推出的 ReaSyn 分子合成推理框架,能基于文献中的分子合成数据优化路径设计;谷歌 DeepMind 推出的药物研发专用大模型 TxGemma,可完成生物化学文献筛选、分子结构和作用机制提取、药物特性预测等核心任务。

2025 年,清华大学研究团队发表重磅研究《ReactionSeek: 基于大语言模型的有机合成文献数据挖掘与知识发现》。该研究成功提取了《Organic Syntheses》杂志自 1921 年以来的全部文献数据,自动构建有机合成知识库,而支撑这一成果的核心化学结构式图像识别模块,采用了某企业信息的 InDraw 结构式编辑器 AI 图像识别功能
AI for Chemistry, AI for Drug 的核心,在于 AI 能理解化学、生物。在化学领域,AI 能理解化学了吗?只有 AI 能理解化学,才能真正实现 AI 设计药物分子结构。而 AI 理解化学的第一步,就是 AI 结构式图像识别,把化学结构式图片,识别成计算机可处理的化学数据(原理如下图)。

 

差距几何?国际顶尖化学结构图像识别模型实力拆解

化学结构图像识别是文献数字化的关键环节,直接影响科研效率。当前国际主流顶尖模型以 MolScribe 与 MolNextr 为代表,二者凭借创新架构设计与化学知识融合策略,在该领域展现出优异性能,相关技术成果已发表于权威学术期刊,其核心优势与能力均有充分的实验数据支撑,MolScribe 与 MolNextr 的识别能力如下图所示。 

来自中国的 InDraw AI 结构式图像识别,是否和这些国际顶尖化学结构图像识别模型有差距?要客观评判 InDraw 与 MolScribe、MolNextr 的识别能力差异,以下借助权威公开测试数据开展量化对比,通过统一的测试标准直观呈现三者的性能表现。

InDraw 的 AI 结构式图像识别实测数据

在 CLEF、UOB、JPO、USPTO 四大权威公开测试集中,InDraw 的识别实力直接 “断层领先” 同类工具:

UOB 测试集拿下 99.73% 的超高准确率,比 MolNextr 高出 11.23 个百分点;CLEF 测试集 98.62% 的成绩,甩开第二名 MolNextr 足足 8.22 个百分点;JPO 测试集里,InDraw90.22% 的表现,比 MolNextr 领先 8.12 个百分点;哪怕是竞争最激烈的 USPTO 测试集,InDraw 也以 94.67% 的准确率,领先 MolNextr0.87 个百分点,展现了强劲的识别能力!

实际案例

Round 1:模糊图识别对比

在高度模糊化学结构图像的识别任务中,三款模型均展现出较高的识别精度,其中 MolScribe 仅存在轻微识别误差。从“识别即可用”的实际应用需求来看,仅 InDraw 可直接满足该标准;MolNextr 虽能实现结构的完整正确识别,但分子结构的还原度欠佳,后续需耗费与重新绘制相近的时间用于调整结构位置及角度,难以直接投入实际应用。

Round 2:超大结构识别对比

对于复杂化学结构的识别任务,三款模型的基础识别精度均能满足需求,其性能差异主要体现在结构还原度层面。其中,MolScribe 对苯环结构的显示形式局限于凯库勒式,且在结构转换过程中存在轻微苯环扭曲现象,该差异在放大观察时更为显著;MolNextr 的识别结果优于 MolScribe,可支持苯环的鲍林式显示,但对特殊化学键的还原效果欠佳;InDraw 的结构还原度表现优异,基本可实现 识别即用” 的需求,此外,MolNextr 的识别结果整体亦具备较高质量。

Round 32.5D 结构识别对比

2.5D 结构识别长期以来是化学结构图像识别领域的技术难点。测试结果显示,MolScribe 在该类结构识别任务中具备不错的识别精度,但结构还原度表现欠佳,相对位置发生了变化;MolNextr 的 2.5D 结构识别结果实用性较低,基本无法直接投入应用;InDraw 能正确识别结构式并保持相对位置,其输出的识别结果可显著降低人工绘制工作量。

小结

实际应用场景中,InDraw 的化学结构识别功能表现突出:针对模糊图像、复杂结构及 2.5D 结构等典型挑战性场景,均能精准捕获核心结构信息,识别结果可较好还原分子真实结构,基本无需人工二次修正。相较之下,同类竞品识别模型的输出结果多需复杂人工校准,其耗时与重新绘制分子结构或无显著差异;而 InDraw 的识别结果可直接支撑后续科研应用,为您的高效化学探索之旅持续提供可靠支撑。

相关文章 更多 >