北京协和医院:医疗大数据平台研究及应用

作者:北京协和医院 发布时间:2021-09-24
浏览次数:


2021年医院新兴技术创新应用典型案例征集活动共选出21篇典型案例,在CHIMA 2021大会上对获选案例进行了颁奖。




1
项目简介



2021年2月19日,国家最高领导人主持召开中央全面深化改革委员会第十八次会议并发表重要讲话,通过了《关于推动公立医院高质量发展的意见》,提出以改革创新为动力,推动公立医院高质量发展。


据此,北京协和医院将智慧科研的建设作为创新切入点,通过全系统数据整合,完善临床信息系统标准化建设,不断探索科研模式创新、构建智慧科研新生态,建设了多层次、多领域覆盖的全院级综合性医疗大数据平台,以及以专科为核心的专病数据库平台等。


2
建设与开发



根据建设目标及要求,我院搭建了从数据到应用的多层架构体系,其中包括:标准体系、多模态数据体系、多模态数据融合与处理、科技创新应用等。


1.标准体系


通过构建科研标准体系,实现了数据存储体系、数据治理体系、科研知识库标准的建设,为建设全生命周期的临床数据标准化应用体系、提高数据利用水平和信息系统智能化程度打下基础。


2.多模态数据融合与处理


结合机器学习、NLP等大数据技术,整合院内外及公共卫生等多模态数据,实现了数据融合与处理、数据标化与治理、数据质量质控等一系列数据的深度治理,为科研数据的使用提供保障。


3.便捷数据查询服务


构建数据服务开放平台,实现数据资产查询与统一调用,同时启动数据授权与审批机制,保障数据调用的安全。


4.一站式统计分析服务


基于数据的使用分析,匹配相关应用场景,开展临床研究、精准医疗等内容建设,推动科研应用。


5.研究成果转化“基地”


基于科研创新项目,提炼研究成果转化思路,实现数据集构建、研究模型的临床落地应用,加速实现成果转化。


3
关键技术



1.标准体系建设


从临床数据标准化和临床系统数据处理的实际应用场景出发,提出以实时采集、标准化、可利用、可更新为主要原则的标准化体系建设,构建覆盖医疗机构标准实施、应用、更新的临床数据标准化应用体系。


2.多模态数据融合与治理


基于大数据及人工智能技术,对院内外数据进行抽取,形成科研数据中心,从数据库层面打通各信息化应用之间的数据通道,同时对数据进行加工处理,形成可识别、可利用的数据信息,助力临床研究发展。


(1)数据抽取


对病历、检验、检查、医嘱、护理等数据进行历史数据抽取和增量抽取。抽取数据过程中,支持不同数据源、各种接口、抽取历史数据和增量数据、字段映射、字段过滤、条件过滤、工作闲时抽取数据等。在确保不增加临床业务系统日常工作系统负荷的情况下,以最短的时间抽取数据。


(2)数据融合与处理


1)EMPI患者主索引


平台支持患者匹配功能,支持基于患者主索引的患者唯一性匹配功能(依赖于患者主索引系统)、就诊信息整合功能,以及按照患者就诊类型、时间展示就诊时序的功能和按照就诊时序进行患者数据归集的功能。


2)多模态数据间关联关系


通过数据间的关系按照门诊、急诊、住院等就诊次数据融合,同时分析医院就诊电子化数据缺失和无法关联情况,确定处理方案。可通过科室、日期选择器,对当前患者的历次就诊信息(基本信息、医嘱、检查报告、检验报告、病历文书、手术记录、护理信息等模块)进行数据分类选择、融合选择,并进行后期的融合处理。


3)自然语言处理


通过自然语言分词以及上下文语义识别,利用机器学习结合数据模型实现对自由文本病历、检查报告、护理记录等全量数据的后结构化处理。从医疗文献、医学指南和医院临床病历中发掘隐含的医学知识,将自然语言文本数据转化为临床知识,便于原有业务系统的自然语言文本数据应用到新的临床诊疗与研究。


4)OCR识别


系统将OCR识别后的非结构化病历文本库和病案首页系统中的首页数据进行采集,应用自然语言处理技术,构建初步结构化与标准化的通用项目数据库;采用病历对照人工与自动核查并行的方式,保证通用项目数据质量,为科研提供数据支撑。


(3)数据标化与治理


1)数据标准化处理


针对结构化数据,如首页诊断、首页手术、检验、医嘱、费用、入转出记录、人口学信息等数据,实现与标准化编码的整合及映射,保证各专科底层数据标准统一,方便后期进行统计分析及科研利用。


针对非结构化数据,进行系统源头改造、自然语言分词、语义关联等操作之后,形成后结构化数据,实现自然语言的计算机可识别、可计算、可分析。建立真实世界疾病领域模型,助力临床研究。


2)数据一致性


对于不规范的数据,通过标准化数据预处理将其转换为标准化数据存储,基于大数据分析技术,对于数据出现错误的情况,根据既往病历的数据基础进行纠正。


3)数据残缺治理


对识别出的缺失数据,根据语义和上下文的数据关联进行智能填补完整。


4)可量化计算


主要分两种形式:一是将分类型的数据自动量化,数据类型包括海量枚举、少量枚举和二值型,自动转化成可用于统计分析的数值类型;二是根据提供的值域量化表,将变量量化成表中对应的值,完成量化。

(4)数据质量质控


1)数据完整性质控


按照质控变量分类,包括数据完整度百分比及空数据的百分比来依次展示所选变量数据完整程度,支撑科研数据应用。


2)数据规范性质控


包括展示研究样本的规范数据、不规范数据和空数据的情况,以及异常数据涉及的患者列表和数据值域详情,原始异常值等。


(5)数据脱敏与加密


根据HIPAA法案和实际业务需求,针对患者信息、医护人员信息等敏感字段信息数据进行脱敏。包括:敏感数据自动检测;对患者关键信息脱敏处理;通过特定加密不可逆算法对关键数据进行加密处理,使用时进行解密。


4
制度建设



针对数据安全和平台使用友好性,建设数据安全管理规范和相关咨询、培训服务。


1.数据安全管理规范

对于数据需求明确的研究,可通过医疗大数据平台进行数据查询,经医院管理、信息等部门审批后授权使用。医疗大数据平台内数据,对姓名、身份证号、地址等信息进行加密处理,如有特殊随访等需求,经审批后走解密流程。


2.用户培训


针对用户数据查询和统计分析,建立线上和线下培训规范,线上通过培训视频和说明手册进行指导,线下通过现场培训和一对一指导进行。


3.科研大数据咨询


由于大部分临床医务人员缺少医疗大数据相关专业知识,我院创新性的提出设置科研大数据门诊咨询服务,并于2020年11月15日开始运行,为临床医务人员提供数据库设计、大数据技术、研究方案制定等内容咨询,提高研究效率。


5
应用效果



1.医疗大数据平台


针对通用科研需求,我们通过医疗大数据平台提供服务。利用人工智能技术,对数据进行自动化采集、关联整合、标准化处理以及便捷化检索分析,构建临床大数据知识图谱及推理引擎,刻画临床各项知识及其关系,深度挖掘疾病症状之间的潜在关联,提高数据的利用率及科研效率,促进医生科研成果发表,多角度满足不同阶段和场景下的研究需求。医疗大数据平台现已服务临床研究100余项,建立数据集1000余个,约90%的数据需求通过平台完成,已支撑多篇文章投稿和研究方案制定,涉及科室包括:内分泌科、肝脏外科、妇产科、胸外科、全科医学科(普通内科)、风湿免疫科等。


2.专病队列研究


针对个性化强的专科需求,通过专病队列提供服务。依托院级医疗大数据平台,整合院内外数据,为科室提供了以疾病为中心的详细临床科研数据,通过全系统数据整合、加强历史数据治理、完善临床信息系统标准化建设,建设专科疾病诊疗标准,为各学科开展研究工作提供标准、优质的数据资源和高效的数据利用工具。现已搭建全国重大传染性疾病危重型多中心临床研究队列数据库,覆盖二十余家成员单位,支撑500+数据维度的高维度分析。


6
总结



科研是医学科学发展的主要源动力。医院要保持高速可持续发展,必须依靠科技进步和创新来提高医院的综合竞争力。科研平台作为医院科技攻关、人才培养、学术交流的重要基地,在提高医学科技创新能力和水平方面发挥着十分重要的作用。我院科研平台的建设以及专科数据库平台的建立,面向科研人员,提供全院数据快速检索、数据集创建及25种统计分析方法,实现基于大数据技术的一站式智能分析功能,辅助临床研究的开展。数据安全是医学研究的重要基础。我院除通过堡垒机等技术手段提升数据安全级别,同时,建设数字阅览室,在独立、安全的网络环境下进行研究探索。未来,还将在此基础上,进一步探讨如何最大化发挥科研平台的支撑作用,结合我院特点和优势,以重点专科领域为引领,建设多级科研平台体系,提升区域科研发展水平。


7
项目创新点



1.多模态数据集成


大数据智能分析平台的数据来源于业务系统多模态数据集成,包括结构化数据如检验数据,文本数据如病历、检查报告数据等。通过自然语言处理技术对文本数据进行分词结构化。


2.一站式统计分析


用户可在平台进行数据检索、处理、分析等一站式研究,方便快捷。


(1)研究对象筛选


支持多种筛选模式灵活组合,可自助筛选研究对象,并根据入排条件动态更新研究对象数量;


(2)研究分组建立


完成对象筛选后,根据课题需要,可灵活创建多个研究组别或亚组;


(3)统计分析及结果解读


平台通过嵌入R语言,可实现对数据的实时在线统计分析,目前已涵盖25种常用统计算法。同时,系统支持对统计结果自动解读,方便医生一站式完成全部科研流程。


3.多维度安全监管


系统和数据安全主要通过以下手段来保障:


  • 患者隐私数据脱敏入库,加密存储,禁止明文;

  • 系统登录帐号LDAP域验证,加强帐号监管;

  • 系统登录浏览全页面增加水印;

  • 系统后台严格监控登录等操作日志;

  • 建立阅览室使用场景,配置访问白名单,限制特定地址访问。

4. 科研大数据门诊服务


通过提供数据和大数据技术咨询服务,为临床医务人员解决科研大数据技术难题困扰,提高科研效率。




more