余俊蓉:数智科研——基于CDM的临床数据开放共享平台建设探索
创办于1910年的中山大学附属第一医院(简称“中山一院”)是中国第一所公医医院。医院以“战役学”理念指导创建国家医学中心,形成了一体多翼的发展格局。医院在高质量发展过程中,信息化起到了非常重要的支撑作用。医院信息数据中心主任余俊蓉强调:“信息化建设的实质主要体现在以下方面:服务临床,体现为提升效率、保障安全和智能辅助;服务管理,体现为流程再造、精细运营和决策支持;服务患者,体现为多场景、多渠道和零距离。”
中山一院智慧医院建设在发展中不断突破,整体信息系统架构设计涵盖9大领域、45个业务。医院集成平台经历了先建、后标准化、再微服务化的过程,随着数据生态的转变,对平台提出了更多要求。
推动数据平台建设
随着智慧医院建设的不断推进,医院信息系统积累了巨量数据,多方数据共享的态势更加明显,但是要想实现数据的互联共享,仍面临以下挑战:数据统筹管理机制有待完善、数据共享供需对接不够充分;数据支撑应用水平亟待提升;数据同步更新机制缺乏管理;数据安全保障能力亟需强化;数据标准规范体系尚不健全。
对此,余俊蓉介绍,中山一院在推进数据平台建设时,制定了以下目标:统一数据管理体系、制定标准化数据目录、建立可控的数字资产共享平台、提供一体化数据服务、应用业务数据解耦的集成技术、构建数据安全技术和管理保障体系。
在推进数据平台建设方面,中山一院以应用为导向,制定了数据平台规划,包括HIE集成平台、数据湖和科研数据平台。三者各司其职,相辅相成:HIE集成平台为数据湖与科研平台提供实时更新的字典与主数据;数据湖为集成平台提供基础数据质控,为科研平台提供优质数据基座;科研数据平台为集成平台与业务系统提供持续的反馈,促进业务数据质量PDCA提升。
借助数据平台,中山一院整合了临床数据,使数据可检索、结构化和标准化,为临床和科研提供科学的数据支撑。
开展基于通用数据模型CDM的数据治理
截至目前,中山一院构建了包含12个业务域、44个子业务域、806个数据项的通用数据模型(CDM)体系。
余俊蓉谈到,为方便后续数据治理工作开展和降本增效需要,中山一院同期配套建设了2个核心的数据治理工具:首先是数据归一工具,实现对诊断名称、检验名称、检查名称、手术名称、药品名称等在内的医学标准词和原始词的归一配置,并能对归一的结果进行实时可视化;其次是搭建了可视化的NLP工具,实现医学非结构化文本的可视化处理,经过培训的科研人员或信息数据中心人员可对后续后结构化字段进行人工处理,对后结构化规则进行修改和程序调试,通过调试后可进行生产任务的配置,最终同步到系统页面,支持结果溯源,有效提高医院整体的数据治理能力。
结合国产大模型,中山一院探索开展了基于人工反馈的强化学习(RLHF)的大模型数据治理,对医学术语归一、结构化指标提取、数据质量控制和数据上报等数据治理场景提供支撑。
在院级数据与专病数据治理方面,中山一院采取了不同方式。 “我们将医院自2003年起的所有患者信息(含多次就诊)按业务域来源分为13个域,每个业务根据数据内容划分为若干字段。而专病数据库的治理是在全院科研数据范围之上进行字段的进一步细化,尤其是大段文本部分,例如检查所见、主诉现病史等。” 余俊蓉阐述道,后续所有的专科专病数据库,都需要在CDM的基础上进行拓展或扩充,形成具有专科或疾病特色的数据模型,赋能科研应用。
在专科专病队列数据治理方面,中山一院基于数据归一和可视化的NLP工具这两大核心数据工具,结合现有大数据平台中的ETL工具体系,赋能信息管理者实现自动化、可持续、可视化、可扩展地完成高质量数据治理,快速响应临床科研需求。
中山一院构建了数据治理质量保障体系,主要带来以下价值:解决数据关联性导致的数据缺失问题,通过相关数据特征将检验、检查等数据与具体诊次进行关联,完成关联后即可实现具体诊次的检验数据、影像数据等客观数据的查看与导出;解决数据不一致可能导致的数据纰漏问题,对多源数据建立取数优先级机制、增加标识作为数据不一致的佐证等措施;解决数据无法溯源的问题,通过数据血缘关系实时反查原始数据,从而实现数据溯源;解决增量数据同步的问题,通过OGG技术、ACK消息队列机制等,着重解决了数据不同步、增量缺失、重复推送、通知未达等问题,提高数据的质量和推送效率。
中山一院建设了临床科研数据平台,具有首页概览、病例检索、科研队列入组、数据申请下载、数据审批、智能分析、智能随访、数据开放等功能,助力全院临床科研提速。
在专病数据库建设方面,医院于2020年开始,先后启动20多个专科专病数据库项目建设,包括神经内分泌瘤(NET)专病数据库、咽喉头颈部肿瘤专病数据库、心肌病专病数据库等,推动临床研究成果的产出和转化,赋能临床诊疗与科研,促进专科能力提升和高质量发展。
余俊蓉谈到,中山一院的数据平台上线后,实现了数据湖的数据采集、清洗和预处理、汇总统计,把医院医疗服务、运营管理最核心的、院领导最关注的指标高度汇聚形成辅助决策的驾驶舱,在医疗实况监测大屏上进行展示,提高了对医疗、运营信息资源的配置和利用,同时高效辅助分析决策、精准协调医疗资源布局。
谈及未来医院数据治理的展望时,余俊蓉强调:“人工智能、大模型等工具有助于构建数据治理的新范式,赋能临床科研的多场景应用,辅助科研人员直观易用且精准全面地检索到数据,可对数据进行后结构化处理,进一步提升数据治理的效率。”