实验室的大数据到底在哪里?其实大数据就潜藏在日常科研的方方面面。如果每位科学家都能将实验室日常产生的数据,包括实验记录、文献资料、仪器设备数据等进行电子化、数据化处理,那么这些集合便可称为大数据。尽管纸质资料在数量上庞大,但现代社会的快节奏要求数据能够快速搜索、获取和利用,纸质数据因查找困难、重复利用率低,通常不符合我们对大数据的定义。
本文内容整理自“医药数字化系列线上公开课(第4期)”中,一位主题报告人对“实验室大数据对药物研发的保护和加速作用”的分享。该系列公开课由恺思俱乐部、辛格迪健康等单位联合推出,已成功举办5期,内容涵盖医药研发企业数字化转型、分子动力学、数智化与自动化驱动研发、制药企业数字化治理与赋能体系建设等方向,所有课程回放可公开查看。
一、实验室大数据采集与管理的基本框架
根据国际期刊上发表的一篇论文(Hari K. Machina and David J. Wild, Journal of Laboratory Automation 18(2): 126–136),实验室大数据的收集、采集和管理有一套相对成熟的框架。
在该框架中,电子实验记录本(ELN)是早期研发阶段的核心,它集成了化学信息学和生物信息学的多种工具软件,如序列编辑工具、化学结构绘制工具等,这些工具通常与电子实验记录本实现数据交互。同时,科研人员还需借助PubMed、NCBI等公开数据库来辅助实验设计。
在新样品或药品发现后,为确保其质量,科研人员会利用实验室信息管理系统(LIMS)进行信息管理。LIMS自上世纪90年代起便广泛应用于分析检验领域,而研发实验室则主要依赖电子实验记录本。分析检测完成后,进入生产环节,该环节通常使用电子批记录(EBR)。
二、国际制药企业的实践经验
全球范围内,多家大型制药企业(如葛兰素史克、艾伯维、诺华等)早已采用电子实验记录本。这些企业主要使用经典的软件(如E-Notebook)来优化数据管理,从2000年左右便开始逐步引入,相较于国内早了十几到二十年。相关研究表明,电子实验记录本能够显著减少数据重复录入时间,提高知识资产的利用率。
三、总结
综上所述,ELN、LIMS、SDMS、CDS、EBR等系统共同构成了实验室大数据采集的关键手段。其中:
ELN侧重于实验数据管理
LIMS关注质量管理
SDMS着重于文档管理
CDS关注色谱数据
EBR专注于批次生产记录管理
这些系统对于现代实验室的数据采集和管理具有重要意义。