曹剑峰:AIGC与医疗展望

发布时间:2023-03-14
浏览次数:

一AIGC发展背景

  2022年是AIGC(Al-Generated Content,人工智能生成内容)火爆出圈的一年,不仅备受投资界关注,更是被技术和产业界竞相追逐。大家认为AIGC会代表新一轮科学范式转移的开始。我们先来看看AIGC发展的几个关键节点:

  1957年莱杰伦·希勒(Leiaren Hiller)和伦纳德·艾萨克森(Leon ard lsaacson)完成了人类历史上第一支由计算机创作的音乐作品就可以看作是AIGC的开端,距今已有65年。

  2014年,伊恩·古德费洛(lan Goodfellow)提出的生成对抗网络(Generative Adversarial Network,GAN)成为早期最为著名的生成模型。GAN使用合作的零和博弈框架来学习,被广泛用于生成图像、视频、语音和三维物体模型。

  随后,Transformer基于流的生成模型(Flow-based Models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。其中Transformer模型是一种采用自注意力机制的深度学习模型,这一机制可以按照给输入数据各部分重要性的不同而分配不同的权重,可以用在自然语言处理(NLP)、计算机视觉(CV)领域应用。

  扩散模型(Diffusion Model)是受非平衡热力学的启发,定义一个扩散步骤的马尔可夫链,逐渐向数据添加随机噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。扩散模型最初设计用于去除图像中的噪声。随着降噪系统的训练时间越来越长并且越来越好,它们最终可以从纯噪声作为唯一输入生成逼真的图片。然而从最优化模型性能的角度出发,扩散模型相对GAN来说具有更加灵活的模型架构和精确的对数似然计算,已经取代GAN成为最先进的图像生成器。2021年6月,OpenAl发表论文已经明确了这个结论和发展趋势。

  总的来看,AIGC在2022年的突然爆发,主要得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术的碰撞融合带来了今天AIGC技术突飞猛进式的变革,并拥有通用性、基础性、多模态、多参数、训练数据量大、生成内容高质稳定等新特征。

二AIGC产业体系架构

微信图片_20230314100738.jpg

  第一层是基础层:也就是由“预训练模型”为基础而搭建的AIGC技术基础设施层。由于“预训练模型”的高成本和技术投入,具有较高的进入门槛,需要分布式大模型作为基础算力框架。以2020年5月推出的推测训练GPT-3为例,其一个训练计算周期的成本可能接近1200万美元。因此目前进入预训练模型的主要机构为领域头部赛道企业、超大型院校科研机构等。国内影响力较强的就是即将在3月发布的文心大模型。2022年上半年,百度升级了任务相关知识增强的千亿大模型文心ERNIE 3.0 Zeus。这个模型除了进行无标注数据和知识图谱的学习外,还通过持续学习算法对百余种不同形式的任务进行学习,以实现任务知识的增强。因为有了基础层大模型的技术支撑,下游行业才能如雨后春笋般发展,形成了目前的AIGC商业洪流。

  第二层是中间层:即垂直化,场景化、个性化的模型和应用工具。预训练的大模型是基础设施,在此基础上可以快速抽取生成场景化、定制化、个性化的小模型,实现在不同行业、重直领域,功能场景的工业流水线式部署,同时兼具按需使用,高效经济的优势。2022年6月,文心大模型中的轻量化技术加持的多个文心ERNIE 3.0 Tiny轻量级模型开源至飞桨自然语言处理模型库PaddleNLP中,直接通过在线蒸馏技术将预训练大模型压缩成预训练小模型。该模型刷新了中文小模型的SOTA成绩。

微信图片_20230314100741.jpg

  随着兼具大模型和多模态模型的AIGC模型加速成为新的技术平台,模型即服务(Model-as-a-Service MaaS)开始成为现实,预计将对商业领域产生巨大影响。

  第三层是应用层:即面向C端用户的文字、图片、音视频等内容生成服务。在应用层侧重满足用户的需求,将AIGC模型和用户的需求无缝衔接起来实现垂直落地。应用层开放的不仅仅是程序,还有其已经训练好的模型,后继创业者能更好的借助这一开源工具,以C端消费级显卡的算力门槛,挖掘出更丰富的内容生态,为AIGC在更广泛的C端用户中的普及起到至关重要的作用。现在贴近C端用户的工具越发丰富多样,包括网页,本地安装的程序,移动端小程序,群聊机器人等,甚至还有利用AIGC工具定制代出图的内容消费服务。

微信图片_20230314100743.jpg

  随着数字技术与实体经济融合程度不断加深,以及互联网平台的数字化场景向“元宇宙”转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为当前新型的内容生产方式,已经率先在传媒,电商、影视,娱乐等数字化程度高,内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。与此同时在推进数实融合、加快产业数字化转型的进程中,金融、医疗、工业等各行各业的AIGC应用也都将快速发展起来。

三AIGC特点与医疗场景结合展望

  在内容消费领域,AIGC已经重构了整个应用生态。AIGC在内容生成领域有以下优势特征:

  1.通用信息抽取技术UIE(Universal Information Extraction),结合医学NLP提供通用的后结构化增益:基于Prompt思想,将希望抽取的Schema信息转换成“线索词”(Schema-based Prompt)作为模型输入的前缀,使得模型理论上能够适应不同领域和任务的Schema信息,并按需抽取出“线索词”指向的结果,从而实现开放域环境下的通用信息抽取。

微信图片_20230314100745.jpg

微信图片_20230314100746.jpg

  从以上图片看,未来的智能文档分析平台可提供包括文档信息抽取、文本内容审查、企业文档管理、文档格式解析、文档内容比对等全方位一站式的文档智能服务,可以形成一套完整的垂直领域医学文档场景化解决方案。其结果可以支持开放式文档抽取问答模型,直接的医疗领域场景就是健康咨询、报告解读、纸质和图片医学文档的“爬虫式”后结构化。这使得医院沉淀下来的大量潜在的“数据资产”,将彻底摆脱传统的“数据清洗”的禁锢。

  2.大模型预训练下自动内容生成,支持跨模态:基于千亿级大模型并行架构下,对于通用任务大型语言和图像Al模型可用于自动生成内容。

微信图片_20230314100748.jpg

  AIGC模型可以生成多种类型的内容,包括文本、图像和音视频、3D内容等等。这可以帮助专业人士创建多样化、更有趣的内容,从而吸引更广泛的人群。医疗领域直接的受益点就是未来患者的“电子病历”和“电子健康档案”中的主要医疗文书,将通过大模型的泛在语义结合指令微调小模型的精练语义相融合,而自动生成部分核心内容,其内容也将是文字结合图片和视频甚至部分3D内容。图文并茂的新特性,将极大的丰富病案的可读性和内容的可解释性。既为未来电子病历、电子健康档案的“互联互通互认”,向患者个人开放奠定基础,也为基于医学科研与临床真实世界的研究提供支撑。

  3.降低领域门槛和运营成本,提高专业内容和管理质量:未来领域内基于AIGC内容制作的门槛和成本将显著降低、效率也会显著提高。行业专家将可以以更低的成本,和更高的生产速度,创造出有独特价值和独立视角的内容。而且AIGC生成的内容,由于其“AI”的血缘,可能比人类创建的内容质量更高从而起到良好的智能辅助作用。因为人工智能模型能够从大量数据中学习,并识别出人类显在的或隐在的管理和控制新逻辑,并把这些逻辑贯穿到内容生成中,这将产生出更准确和信息更丰富的内容。以前述的医疗文书为例,文档的模板更规范、质控逻辑更清晰、内容表达更丰富、易读性和可解释性也更强。而且可以极大地把医务人员从日常繁琐的文件梳理工作中解放出来,把更多的精力投入到患者医疗救治服务和临床科研中去。

  4.可实现个性化内容服务,聊天机器人和“数字人”成为新的、更包容性的用户交互界面:人工智能模型可以根据个人用户的喜好生成个性化内容。这可以使垂直领域专业人士,创建出目标受众更感兴趣的内容,并被广泛阅读或分享。未来随着性能的讲一步提升,对话式AIGC在搜索、知识传播等领域有很大的应用空间。AIGC的最终目标是做一个类似于新时代的“搜索引擎”。目前从ChatGPT展示出来的内容输出质量和内容覆盖多维度,已经可以直面“搜索引擎"与“问答社区”等相关应用。AIGC支撑了Al驱动未来“数字人”多模态交互中的识别感知和分析决策功能,并使其“高度拟人化”。其中自然语言处理好比是“数字人”的大脑,“说人话”直接影响受众的交互体验。而计算机视觉ViT决定了“数字人”面部表情和肢体动作的人类情感自然流露。目前主流的方式是围绕NLP能力通过文本驱动,本质是通过ASR-NLP-TTS等AI技术进行感知-决策-表达的闭环来驱动“数字人”交互。医疗可对接的场景很容易想到未来“12320”热线的无人值守、数字家医智能患者随访、健康评估、健康咨询与宣教、远程医疗等需要大量人机交互的场景和医疗服务新模式领域。

  5.元宇宙概念提出后,互联网下一个重要方向将从“在线"走向"在场",全面迈向3D互联网新时代,而AIGC将成为打造虚实集成世界的基石。未来人们将可以在虚拟空间中构建仿真世界,在现实世界“叠加”虚拟增强,以实现逼真的临场感。随着各种交互、仿真、传输技术的不断突破,信息在传输层越来越接近无损,如果“算法”、“算力”、“算据”的整合能力仍可不断提升,则未来数字仿真能力将“真假难辨”,而人类在3D互联网中的交互和沉浸体验将达到新高度。如果这一天真的来临,代表AIGC的能力已经扩展到从虚拟场景、到虚拟角色、再到虚拟内容的全面仿真能力的生成式内容全覆盖。未来的“互联网医院”的场景也将升级,从现在的“线下”与“线上”的一体化,走向未来“现场”和“在场”的一体化。所谓“在场交易”,“现场交割”的互联网诊疗运营和服务新模式的出现,使患者不再受到时空的限制,人人都将可以“分身有术”。医疗垂直领域服务为王、内容为王的新时代也将到来。医疗服务供方、需方、监管方的三者关系,将在新一代互联网3D空间中以虚拟现实的方式展开全面的沉浸式体验和内容互动。

微信图片_20230314100751.jpg

四AIGC助推元宇宙发展

  未来AIGC将是推动元宇宙发展的重要生产工具:

  首先,AIGC为构建沉浸式的元宇宙空间环境提供了核心基础设施技术,将成为元宇宙的生产力工具。元宇宙在理论上可以用于工作、会议、游戏以及生活社交等各种人类活动,因此需要在元宇宙空间中创建各种各样的活动对象,建筑和活动环境。但是在过去为了构建这些数字环境,需要开发团队半手工地创建每一个部分,专业化门槛高、工作量巨大其成本高企。而现在AIGC已经可以实现创建逼真的3D虚拟空间环境、虚拟人物,并且效率和成本可以满足大规模的元宇宙字间通用环境的统一创建。AIGC使得新一代数字化“创世纪”成为可能。

  其次,AIGC将作为生产力工具,为元宇宙用户提供个性化内容体验。大量个性化、多元化的数字内容是未来吸引人们在“元宇审”中“流连忘返”的重要原因。虚拟场景、虚拟角色、虚拟身份、虚拟内容的映射、连接和对齐需要高度智能化的生产工具。而这些内容如果仅通过人工方式来生产既成本高又耗时长,肯定无法满足用户的海量需求,因此需要AIGC作为重要生产力工具来满足助推“元宇宙”的早日到来。

五结束语

  数字经济可能是未来替代石油能源经济的发展新方向,目前紧密发布的相关文件和机构改革方案,也进一步印证了这一点。人工智能作为数字经济的“上层建筑”,虽然目前还不是万能的,但未来如果没有也是万万不能的。“数字化”说到底其实就是为了解决结构化和语义化问题;“智能化”就是为了使逻辑和推理变得更加人性化和高度可泛化。AIGC正好同时契合了这两个维度的方向,而且在技术体系内实现了两者高度的融合,所以AIGC未来的发展与垂直行业相结合,接了“地气”后发展空间将更加不可限量。

  格物致知、以物格物、推近致远,应该是我们具备的“科学态度”。这篇文章目前还是一种“推演”,而我们文中所述的种种在未来回头再看,可能早已“一日千里”,仅仅“沧海一粟”而已。当然在兴奋中之余我们也应该清醒的认识到:科技的翅膀往往会在伦理的海洋里泛起涟漪。但是无论如何,科技向善、科技为人类福祉而奋斗,应该是万变不离其宗的“科学精神”。

  作者简介

  曹剑峰,上海市卫生健康统计中心副主任(原上海市卫生健康信息中心),拥有30年的医疗健康信息化建设工作经历:1991年进入上海市胸科医院开始从事医院信息化工作;1994年开始参与研发上海第一代医院信息系统(HIS),对医院的业务流程有深刻的理解;2006年进入卫生行政部门——上海市卫生局信息中心,开始参与全市重点项目“公共卫生突发应急工程”、“上海市民健康网工程”的项目实施与管理工作,开始了市、区两级区域医疗信息化的探索;2015年开始负责上海市“社区综改和家庭医生责任制”和“1+1+1”分级诊疗”信息化支撑项目;2017年开始研究大数据DRGS医院病种指数用于公立医院精细化管理方法的探索;2018年开始在上海市拓展“健康云”——“互联网+医疗健康”信息惠民移动服务平台的推广与应用;2019年开始探索建设上海“互联网医院”以及“互联网监管平台”建设。2020年参与组织实施上海市实事工程“支付一件事”,率先实现医保“脱卡信用支付”新模式,同年参与建设青浦“长三角智慧互联网医院”;2021年主持参与上海医疗便捷就医“数字化转型”七大场景中“互联互通互认”与“电子出院小结”两大场景建设;2022年秉持“12512”的理念,组织开展上海卫生健康信息标准化揭榜攻关项目落地。