在医学领域,精准诊断和治疗决策一直是医生和患者关注的焦点。然而,面对海量的多模态数据,传统方法往往力不从心。人工智能(AI)技术的崛起,正为这一难题带来革命性解决方案。本期文章聚焦于新的研究成果——MUSK模型,通过整合病理图像和临床文本数据,不仅实现了跨模态检索、视觉问答等复杂任务,还在分子标志物预测、癌症预后和免疫治疗反应预测中展现了卓越性能。MUSK的出现,标志着AI在精准肿瘤学领域的应用迈出了关键一步。通过本文,您将深入了解AI如何改变医学的未来,以及它如何为患者带来更精准、更个性化的治疗选择。
一. 研究背景
临床决策依赖多模态数据,如临床记录和病理特征,但现有方法在整合这些数据方面存在局限。人工智能(AI)在整合多模态数据方面潜力巨大,但高质量标注数据集稀缺,阻碍了模型发展。基础模型通过大规模预训练,可在无需额外训练的情况下应用于多种任务,为医学AI开辟了新方向。然而,现有视觉-语言基础模型在病理学领域面临数据规模不足和任务复杂度有限的挑战。
为此,本研究提出基于多模态统一掩码建模变换器(MUSK)的视觉-语言基础模型。MUSK利用大规模未标注病理图像和文本数据进行预训练,并进一步对齐图像-文本对特征,旨在解决现有模型的局限性。通过广泛任务评估,MUSK在跨模态检索、视觉问答、图像分类、分子标志物预测及临床结果预测中展现了卓越性能,为精准肿瘤学和多模态AI应用提供了新工具。
二. 文章详情
文章题目:A vision–language foundation model for precision oncology
中文题目:用于精准肿瘤学的视觉-语言基础模型
发表时间:2025.02
期刊名称:Nature
影响因子:50.5
DOI:10.1038/s41586-024-08378-w
三. 研究结果
1. MUSK模型预训练
本研究开发了基于多模态Transformer架构的视觉-语言基础模型,作为网络骨干。模型预训练分为两个连续阶段。首先,MUSK在5000万张病理图像和10亿个病理相关文本标记上进行预训练。这些图像来源于11,577名患者的约33,000张全切片组织病理学扫描结果,涵盖了33种肿瘤类型。借鉴BEiT3架构,MUSK模型由共享的自注意力模块以及针对视觉和语言输入的独立专家模块组成;预训练通过掩码建模实现。其次,MUSK在来自QUILT-1M模型的一百万张图像-文本对上进行了预训练,采用对比学习方法以实现多模态对齐。