乔鹏：通过智能数据编织应对数据挑战

发布时间：2022-12-02

数据的价值与挑战

　　1.数据的价值

　　数据的核心价值是帮助我们决策。

　　我们无时无刻不在决策，大到战略决策——为一家新医院选址，还有战术决策——鉴别产品的目标市场或抵押贷款审批，更频繁的是操作决策——决定患者的手术方案或患者药物的调整。

微信图片_20221202105211.jpg

　　这些决策要求不同的决策速度，传统的数据中心已经能较好地帮助我们做战略决策、战术决策，甚至一些操作决策。但新的业务需求要求我们的决策速度越来越快，甚至借助机器学习自动为我们做出即时的决策，例如批准还是拒绝一笔信用卡交易或基于算法自动交易。

　　无论是人工决策还是基于机器学习的自动决策，决策的依据是数据。数据的速度和质量决定了决策的速度和质量。要支持决策，需要数据具有如下特征：

　　(1)完整：关联且具有完整上下文;

　　(2)干净：数据质量没有问题;

　　(3)及时：在决策点上没有延迟。

　　传统数据中心很难在及时性上满足要求。

　　2.数据挑战

　　数字化浪潮下，我们面临更大的数据挑战：

　　● 数据规模：数据量已经完全超出了人工处理能力。

　　● 数据源多样性：数据源不再仅是数据库，流式引擎的消息、物联网、对象存储......它们还带来了越来越多模型种类的数据。

　　● 更多的数据孤岛：更多的系统和应用被建设，进一步增加了数据孤岛现象。

　　● 跨部门的数据不一致：统计口径和统计时间的差异，造成财务部门统计的数据，总是和业务部门统计的数据对不上。

　　● 数据服务对象变化：现在业务分析师、运营数据消费者、数据工程师、数据科学家和普通人群都是服务对象。

　　● 部署需求的多样性：传统本地部署、云部署、混合部署......

　　而由于技术、法律、经济性等原因，传统的数据集中保存无以为继......

　　数据库、数据仓库、数据湖，这些传统的数据管理技术应对这些需求和挑战，越来越力不从心。数据库能保持数据的热度(良好的数据存取速度)，但支持的模型类型和数据来源有限;数据仓库要统一数据质量与格式(Schema on Write)，缺乏灵活性;数据湖可以“以原始形态保存一切数据” (Schema on Read)，但各种数据进入这样一个湖，全都变成了无法直接分析利用的冷数据!

应对之道 – 数据编织和智能数据编织

　　数据编织是正在兴起的数据管理技术以应对数据挑战，Gartner将其定为2022年12大战略技术趋势之首。

　　那什么是数据编织?

　　Gartner将数据编织定义为一种设计概念，可作为数据和连接流程的集成层(结构)。通过对现有、可发现和可推理的元数据资产进行持续分析，数据编织能够在所有环境(包括混合云和多云平台)中设计、部署和利用可重复使用的集成数据。

　　智能数据编织(Smart Data Fabric)则更进一步，在结构中直接嵌入各种分析能力，包括数据探索、商业智能、自然语言处理和机器学习，使企业可以更快、更容易地获得全新洞察，为智能预测和规范性服务及应用提供动力。

　　Gartner的这个名词解释还是有些抽象，如何理解它?为何数据编织/智能数据编织是解决上述挑战的利器? 如何利用现有的产品真实实现智能数据编织的落地?

InterSystems提供的智能数据编织解决方案

　　今天，智能数据编织(Smart Data Fabric)正被用于许多行业的实际生产中，为各种企业级、关键任务创新提供动力，包括场景规划和决策支持、法规遵从、实时可见性和警报等，作为全球领先的数据技术提供商，为应对当前数据挑战，特别通过InterSystems IRIS新一代数据平台提供智能数据编织解决方案，整合了许多关键特性和能力，以满足客户实施智能数据编织进行数字化转型的需求，该方案在解决数据挑战的同时，允许现有的遗留应用和数据保持原位，最大限度地利用以前的技术投资，包括现有的数据湖和数据仓库，而不需要“撕裂和替换”任何现有技术。

微信图片_20221202105216.jpg

　　InterSystems IRIS数据编织解决方案把智能数据编织分为3个阶段：

　　● 数据互联互通阶段：有能力实时、双向打通各种数据源，将数据源有机编织在一起。

　　● 数据集成阶段：对数据本身进行编织，为多模型数据提供高性能存取和转换、加入数据安全控制、建立数据谱系、抽象为干净和统一的语义层供数据用户使用。

　　● 智能利用阶段：对建立了统一语义的数据提供紧贴数据的智能利用能力，例如商业智能分析、自然语言分析、机器学习，并使这些智能增强数据编织本身。

　　InterSystems IRIS数据平台在单一技术栈内提供智能数据编织的这些能力：互联互通、数据集成、自助服务、智能分析和多云。

　　传统数据利用的是多级瀑布模式：数据从数据库到数据湖，再到数据中心，数据大批量、高延时地在异构数据平台间移动和拷贝。这是影响数据时效性、一致性的主要原因。所以InterSystems智能数据编织第一就要解决这个问题，而解决之道就是互联互通和数据集成。

微信图片_20221202105223.jpg

　　1.互联互通

　　因为数据源和数据模型的多样性，传统的ETL在能力和时效性上都已不能满足需求，需要更完整的互联互通能力。长期以来，InterSystems是互操作技术的领导者，它提供各种适配器实时接入各种数据源，例如流式处理引擎Kafka，并对遗留系统进行现代化，即便有很多遗留系统作为数据源，依然可以通过它将其数据模型多态化和数据服务现代化。

　　2.数据集成

　　数据集成(Integration)不追求将数据放在一起，而是要建立数据间的准确关联，建立具有连续上下文的全息数据，甚至丰富数据。InterSystems提供：

　　(1)多模型

　　面对多元数据，Gartner表示，要想成功利用数据编织，企业必须确保数据编织能够动态地(通过元数据驱动设计)支持不同数据交付风格的组合，以支持特定的用例。

　　InterSystems的多模型数据建模和保存能力，让不同的数据以最适合的模型进行操作，它支持原生的对象、表、键值对和JSON文档。

微信图片_20221202105226.jpg

　　(2)多语言

　　如何操作多模型的数据?每个数据用户都有熟悉或适合其用途的语言来使用数据，例如很多场景下，SQL是最简单的使用数据的语言。InterSystems让用户可以用SQL操作一切数据，哪怕它是以键值对建模和保存的。

微信图片_20221202105231.jpg

　　(3)数据转换

　　不同的数据用户希望得到不同结构的数据。InterSystems提供图形化的高效数据转换工具，为用户构建干净的、单一可信的数据。

　　3.自助服务

　　如何发现、探索、推理数据编织平台中的数据?需要借助统一的语义和自助的服务能力。

　　(1)统一语义

　　为了数据完整性，无论是数据仓库还是数据湖，都将数据中心化存储。这造成了很多数据障碍：数据的时效性低、数据的质量参差不齐、数据需求严重依赖IT去清洗关联等等。

　　InterSystems的自适应分析是一个统一的、抽象的语义层，通过建立虚拟/逻辑数据分析立方体，用户可以使用SQL或BI工具访问这个语义层，而自适应分析自动使用SQL访问后台的多InterSystems IRIS数据平台实例获得数据和分析结果，不需要将数据集中保存到一起。

　　数据无需集中，因此无需ETL，没有数据抽取拷贝的时间成本开销，提供高时效性的数据;而抽象语义层将多数据源的数据建立逻辑关联，向用户提供干净、完整的语义上下文。

微信图片_20221202105235.jpg

　　(2)行业语义级的数据编织

　　医疗健康行业面临相较其它行业更复杂的行业数据，在现实业务中要应对不同的语义表达。编织不同语义的数据源，将数据抽象为非标准语义，这会为后面的数据价值利用增加障碍。

　　FHIR建立统一行业语义的行业数据内容标准、利用标准行业术语和标识符、定义统一的传输标准、并逐步建立隐私和安全标准，让使用行业语义编织数据成为可能。

　　InterSystems支持所有FHIR的交互范式，提供FHIR服务器和FHIR资源仓库，并通过FHIR SQL构建器，建立基于SQL的FHIR数据访问能力，用最简单的数据操作支持BI/AI。通过FHIR来搭建具有统一行业语义和生态的数据编织平台。

微信图片_20221202105238.jpg

　　(3)自助服务

　　长久以来，由于数据源和数据本身的复杂性，专业IT用户把持着数据的使用，商业用户极度依赖于专业用户才能获取、分析和利用数据。

　　借助统一语义层和对标准的支持，InterSystems让商业用户使用自己熟悉的工具和语言，例如SQL、BI工具和API来探索数据、操作数据和分析数据。

　　4.智能分析

　　为数据编织增加智能， InterSystems提供开放的智能分析能力。包括嵌入平台的机器学习、自然语言分析、商业智能特性，对第三方工具和生态的支持，以及对标准的支持——MDX、UIMA、PMML......

微信图片_20221202105241.jpg

　　InterSystems提供全SQL操作方式的自动化机器学习，并允许使用第三方的自动化机器学习后台，如DataRobot，从而避免学习不同的API，用最简单的SQL就可以获得丰富的机器学习能力：

微信图片_20221202105244.jpg

　　5.多云

　　数据编织平台要能支持所有主要的开发和部署环境，使开发人员和运营团队能够在他们选择的环境中工作。并与现有的基础设施和最佳技术无缝集成，支持最广泛的客户环境和应用要求。

　　公共云、私有云、本地、混合、裸机和虚拟机环境，InterSystems支持所有部署选项，且都只需要一个API，而不需要对你的应用程序进行修改。

微信图片_20221202105246.jpg

总结

　　InterSystems的智能数据编织解决方案通过对数据源、数据的编织，避免多级瀑布式的大规模、高延迟的数据拷贝。构建抽象的统一语义层，并借助行业标准语义，建立基于标准的数据编织平台，为用户提供简单易用的数据探索和利用能力。利用全面的智能分析能力提升数据质量和数据价值，并降低数据利用的难度。多云的架构确保了对最广泛的客户环境和应用要求的支持，为数据编织的实施部署铺平了道路。

　　扫描下方图片二维码了解更多智能数据编织的概念和应用

微信图片_20221202105250.jpg

　　作者简介

微信图片_20221202111748.jpg

　　乔鹏，InterSystems技术总监。自2004年加入InterSystems(系联软件)，历任售前工程师、技术经理、技术总监等职务，精通公司旗下Caché数据库，Ensemble集成平台，HealthShare统一健康档案，IRIS数据平台等明星产品，对于数据库、互操作性平台、数据中台、医疗相关标准以及集成平台解决方案，有着深刻的理解和十多年的行业经验，参与主导过百余家医院或者区域平台的信息化建设;同时他能够对CDR、临床决策支持、商业智能、机器学习等数据利用产品和方案有广泛的认识和丰富的实践经验。

上一篇：医院有没有信息安全建设最低配置要求？｜医院信息化百问百答

下一篇：郭扬帆：采样，HIT人也是专业的