北京大学肿瘤医院：基于人工智能技术的医疗数据通用脱敏系统构建与应用

发布时间：2026-06-18

一项目简介

北京大学肿瘤医院（简称“北京肿瘤医院”）始建于1976年，是一所由北京市医院管理中心、北京大学共管的三级甲等肿瘤专科医院。

医院开展了基于人工智能技术的医疗数据通用脱敏系统建设，共分为两期：一期时间为2022年06月24日-2023年06月15日，二期时间为2023年10月18日-2024年05月15日。

二建设与开发

1.需求分析和系统设计：针对医疗病历脱敏的需求与应用场景，进行详细的需求分析，设计系统的整体架构和功能模块。确定使用人工智能技术，包括深度学习和自然语言处理等，以提高病历脱敏的准确性和效率。

2.数据预处理：确定数据源以及数据格式，进行医疗数据预处理，包括采集、清洗、去噪、格式转换、归一化、分类、识别等操作，以保证数据的质量和一致性。

3.特征提取和选择：对医疗图像病历数据进行特征提取和选择，包括图像识别、命名实体识别等操作，从中提取出有用的特征，作为机器学习模型的输入；对文本病历数据使用规则、词典以及自然语言识别进行加权算法进行识别。

4.机器学习模型训练和调优：使用提取出的特征，训练出合适的机器学习模型，并对模型进行调优和优化，以提高模型的准确性和效率。

5.病历脱敏和输出：使用训练好的机器学习模型以及大语言模型，对医疗病历数据进行脱敏处理，包括去姓名、身份证号码、地址等信息，并将脱敏后的数据输出到指定的存储介质或平台上。

6.系统测试和部署：对系统按照机器、人工两个阶段分批进行测试和验收，确保系统的质量和稳定性。然后将系统部署到生产环境中，进行长期的运行和维护。

三需求分析

在医疗行业数字化转型的浪潮下，医疗数据已成为临床科研与医院管理的核心资产。然而，电子病历、检验报告、医学影像等数据中蕴含大量患者隐私信息，如姓名、身份证号、住址等，一旦泄露将带来严重的法律风险与社会影响。随着《个人信息保护法》《数据安全法》等法规的相继出台，国家对医疗数据安全管理提出更高要求。如何在保障患者隐私的前提下充分释放医疗数据价值，成为医院信息化建设亟待破解的核心难题。

长期以来，医疗数据脱敏主要依赖人工操作或基于规则库的半自动工具，面对医院海量、多源、异构的数据类型，传统方式暴露出效率低下、易遗漏、标准不统一等弊端。人工处理周期长达数周，难以满足临床科研的时效需求；规则匹配缺乏灵活性，无法应对复杂多变的敏感词表达。这些问题严重制约了医疗数据的二次利用效率。为此，北京肿瘤医院自主研发了基于人工智能技术的医疗数据通用脱敏系统，通过数智化手段实现隐私保护与数据价值释放的有机统一。

四关键技术与产品描述

1.技术方案

本系统设计基于通用性与模块化的开发思想，由北京肿瘤医院信息部独立设计与研发。在系统设计、架构与研发中，医院从以下几个方面进行了分析与设计。

（1）异构源接入：由于电子病历的类型存储以及格式多样性，如何保证病历脱敏系统对异构源通用，医院设计了不同源的接入方式与接口，并依据电子病历数据类型定义了多种适配模型。

（2）数据预处理：在进入脱敏处理之前，需要对数据进行预处理，包括清洗、去噪、数据格式转换等操作，以减少后续处理的难度和工作量。

（3）图像识别技术：图片类医疗病历中的患者姓名、地址、电话号码等敏感信息可以通过图像识别技术进行去识别化处理。借助深度学习模型，医院使用卷积神经网络（CNN）进行图像识别和分类，将敏感信息变成无意义的符号或进行涂抹。

（4）加密技术：医疗病历中患者的敏感信息，如医疗记录、财务信息等。在脱敏处理过程中，需要对这些信息进行加密处理，以确保其安全性。可以使用对称加密算法和非对称加密算法，如AES（高级加密标准）和RSA（加密算法），对数据进行加密和解密，此系统可通过配置项选择不同算法使用。

（5）数据去身份化：医疗病历中常常包含患者的个人信息，如姓名、地址、电话号码等。在脱敏处理过程中，需要将这些个人信息进行去身份化处理，以避免信息泄露。可以使用数据清洗和去身份化技术，如数据去重、数据模糊化、数据涂色等处理，将个人信息变成无意义的数字或符号。

（6）安全协议：为了确保医疗病历脱敏系统的安全性，在数据接口交互等方面医院需要使用安全协议，如SSL（安全套接层）和TLS（传输层安全）等协议，以保护患者信息的传输和存储。此外，还需要使用数字证书来确保通信的安全可靠。

（7）LLM（大语言模型）：鉴于医院医疗数据属于高度敏感数据，并结合大语言模型特征综合考虑选择开源大语言模型进行私有化部署。

鉴于以上分析，北京肿瘤医院设计了基于人工智能技术的医疗数据通用脱敏系统，鉴于模块化的开发思想，系统架构参见图1。

图1 基于人工智能技术的医疗数据通用脱敏系统构建与应用架构图

本系统基于vLLM、Ollama大模型管理底座以及融合开源深度学习平台PaddlePaddle、主流开源大语言模型构建，从数据管理、模型构建、病历脱敏以及部署与应用四方面进行设计与实现。在数据管理模块中可通过自由配置对接异构数据源实现医疗数据的ETL全流程处理，在模型构建模块中通过深度学习平台、大语言模型等人工智能技术进行病历特征提取与模型训练，在病历脱敏模块中，通过界面化配置并采用Jieba切词统计、大语言模型、正则表达式以及字典词库加权的算法完成敏感词的识别与处理。本系统采用Docker容器技术对系统部署，支持Oterm命令行的访问、API接入以及OpenWebUI界面化的操作与使用，具备机器（任务化处理参见图2）+人工（人工可视化处理参见图3）的双重处理机制，以确保病历数据脱敏的准确性（脱敏后病历数据系统呈现参见图4）。

结合该项目系统架构与申请的相关发明专利，本系统具有良好的应用前景与成果转化能力。

图2 任务化处理方式配置界面

图3 人工可视化处理界面

图4 图像病历脱敏后系统展示

2.解决的问题

医疗病历脱敏在整个医疗病历数据使用中具有至关重要的意义。医疗病历脱敏能够保障患者隐私权和个人信息安全，促进医疗信息共享，防止医疗欺诈和虚假索赔，提高医疗信息安全性，为医疗卫生事业的发展和进步作出积极的贡献。

五应用效果

目前该病历脱敏系统已经形成了以人工智能技术为基础的机器自动处理+人工界面化处理相结合的一体化解决方案。

自2022年8月16日该系统逐步上线以来，已经应用到北京肿瘤医院临床试验中，完成超过125万图像类型病历的脱敏处理工作，机器自动处理准确率已达到86.51%，结合人工界面化处理，准确率可控制在96.00%以上；在病历、用药、手术、病理、检验、生命体征、诊断、评分量表等维度共计完成超过213万条文本类型病历脱敏处理，脱敏准确率高达98.00%。

六总结

本项目在人工智能技术应用上取得突破性进展，构建了覆盖文本与图像的多模态智能脱敏技术体系。在算法层面，创新性地融合深度学习平台与大语言模型，采用卷积神经网络进行医学图像分类与敏感区域定位，结合OCR技术与LSTM+CRF模型实现图片内文本的精准识别；对于文本数据，通过Jieba分词、正则表达式、字典词库加权与大语言模型的混合算法，实现敏感信息的高精度识别。在架构层面，采用模块化设计与容器化部署，支持异构数据源灵活接入，并实现大语言模型的私有化部署，确保医疗数据“不出域”的安全要求。系统内置多种加密算法（AES/RSA）供灵活配置，形成从数据接入、智能识别、自动化处理到质量评估的全流程技术闭环。

（来源：CHIMA 2026医院新兴技术创新应用典型案例集）

下一篇：复旦大学附属华山医院构建多院区影像协同新底座