报告编委
李喆
爱分析合伙人&首席分析师
廖耘加
爱分析分析师
目录
1. 研究范围定义
2. 市场洞察
3. 厂商全景地图
4. 市场分析与厂商评估
5. 入选厂商列表
研究范围
在后疫情时代,以数据分析为代表的数据消费场景日益丰富,数据驱动业务增长成为市场共识,数据开发管理越来越受到企业决策者重视。
当前,各类管理信息系统、协同办公系统的应用,物联网和边缘设备的普及,都让企业端数据采集和分析的场景变得越来越多,数据驱动的场景从当前集中在前端的营销、销售环节,正在向后端供应链的全场景延伸,从与消费互联网紧密相关的零售电商向金融、教育、医疗、工业等全行业覆盖,数据消费场景的丰富和分析需求的快速增长导致数据应用开发需求迅速增加。
金融、零售等行业头部企业纷纷成立独立的数据管理部门,在数据开发与管理方面的投入明显增加。建设银行、民生银行、兴业银行等金融机构通过新建数据管理部门来实施大数据战略,快速释放数据生产力,实现数据资产的集中管理,聚集数据人才,深度挖掘与共享数据资源,从而利用数据驱动全方位支持业务发展。
尽管对数据的需求和投入不断增大,但在实际管理和应用时企业仍面临诸多挑战:
企业内部数据管理的协作成本越来越高。一方面,数据分析工具多元化导致数据用户角色更复杂,企业内现在设置了如数据工程师、数据管理员、报表开发人员、运维工程师等多个职位,反而容易造成职责边界交叉模糊,协作困难。另一方面,IT部门、数据部门和业务部门之间难以建立起紧密的融合关系,数据部门相对弱势,难以推动业务部门主动用数,整体数据应用效率较低。
单个环节的自动化无法解决全局问题。尽管企业在数据开发、数据治理等单个环节采购了相关的工具或平台,实现了局部的自动化,然而仅仅能解决表面问题,无法真正解决全局需求。难以建立覆盖所有业务的规范统一、集成互联的数据基础,从根本上消除数据孤岛,实现企业级数据集成整合、全面共享应用,提升企业大数据能力。
数据应用开发需求增长与数据用户角色的复杂致使企业数据开发、数据运维工作量以及数据应用交付协调难度大大增加。因此,企业需要一套全新解决方案,真正实现数据驱动业务增长。DataOps以其能服务于业务部门、大数据部门,提供敏态数据开发支持,优化数据生产者和数据消费者协作效率,成为解决以上问题的最佳方案。
在此背景下,为企业引入DataOps过程中提供全面的规划、建设和产品选型参考,爱分析调研并撰写了《2022年爱分析DataOps厂商全景报告》。
DataOps市场定义
图 1: 数据全生命周期
数据全生命周期包括三个阶段:首先,由业务部门在业务运行过程中产生原始数据;其次,大数据部门(IT部门)对原始数据进行数据加工;最后,加工后的数据再次回到业务部门完成数据消费。因此,在数据全生命周期中核心环节基本上由大数据部门(IT部门)完成。
大数据部门(IT部门)职责包括两方面:1)数据资产统一管理;2)支持业务部门的敏稳双态数据消费需求。
DataOps核心是面向于大数据部门的第二项职责,既满足业务部门稳态的数据消费需求,如数据报表、数据可视化、自助式分析等;也要满足业务部门敏态的数据消费需求,如机器学习建模、智能推荐等,敏态需求迭代速度更快,其中涉及到很多探索式需求。
DataOps市场定义:服务于业务部门(业务部门ITBP)和大数据部门,满足敏稳双态数据消费需求,提升数据加工环节效率的咨询、工具和服务。
图 2: DataOps市场全景地图
基于数据全生命周期三大阶段,进一步将数据加工环节拆分为数据采集(数据同步)、数据开发、数据服务(数据虚拟化)和数据质量提升;将数据消费环节拆分为数据分析和数据应用。并根据每一阶段存在的业务需求,映射出对应的细分市场。
本次报告,爱分析认为DataOps全景图主要覆盖数据加工环节,具体来说,与数据采集、数据同步对应的是“敏捷数据管道”市场;与数据开发对应的是“一站式数据开发管理平台”市场;与数据服务对应的是“数据服务平台”市场、“智能数据资产目录”市场和“指标中台”市场;与数据质量提升对应的是“数据可观测性平台”市场和“数据治理”市场。
爱分析认为,甲方企业真正要实现DataOps,必须具备完整的数据能力,建设一整套面向业务需求的数据开发管理机制,仅仅具备单点能力是远远不够的。因此,上述对DataOps市场划分,主要是考虑到市场发展现状、甲方企业建设进展和厂商能力,并不意味着具备单点能力就可以实现DataOps。
爱分析综合考虑市场关注度、甲方需求和实际落地进展等因素,选取以下3个特定市场进行重点分析,分别是“一站式数据开发管理平台”、“敏捷数据管道”和“智能数据资产目录”。
本报告面向金融、制造、汽车、消费品零售、能源等行业的大数据部门负责人、IT部门负责人和业务部门(业务部门ITBP),通过对各特定市场的需求定义和代表厂商能力解读,为企业数字化转型规划与厂商选型提供参考。
厂商入选标准
本次入选报告的厂商需同时符合以下条件:
1.DataOps市场规模超180亿元
爱分析推算,2022年中国DataOps市场规模为185.1亿元人民币,同比增速为13.0%。考虑到大部分DataOps项目甲方还是大型企业,立项和交付受疫情影响很大,2022年增速较2021年明显放缓,但预计2023年会40%以上的增速,市场进入快速发展阶段。
图 3: 中国DataOps市场规模预测
DataOps市场由软件产品和服务组成,现阶段整个市场并未形成统一标准和规范,绝大多数DataOps项目都是基于甲方企业自身需求进行落地,因此,软件产品占比30%左右,大量项目还是以服务为主。大部分DataOps项目是厂商提供核心产品组件,基于实际甲方需求,形成DataOps解决方案。
DataOps市场甲方以金融、制造、能源、消费品与零售等行业为主,主要是以集团型甲方企业和行业头部甲方企业为主,但两者对DataOps的需求略有不同。集团型甲方企业在实际开展数据管理工作时,已经深刻意识到数据管理与数据服务的挑战,正在寻求新的数据管理解决方案。行业头部甲方企业在数字化转型、数据能力建设处于行业前列,数据部门自身有很强烈的创新和探索意愿,愿意尝试更多新的技术方案。
2.DataOps是实现数据驱动业务的关键基础设施
DataOps概念一经出现,就会不断跟数据中台进行比较。爱分析认为,数据中台承载了企业实现数字化转型的长远愿景,DataOps解决了数据驱动业务的实际问题。
2019年至今,数据中台一直备受诟病,建设预期与实际结果之间的巨大落差是大量数据中台项目失败的重要原因之一。很多数据中台项目需求来自企业决策者,并非技术部门或数据部门,数据中台往往承载了企业决策者实现数字化转型的美好预期,不过数字化转型并非一蹴而就,企业在数字化转型中遇到的挑战也不可能完全依靠技术平台来解决。
数据中台建设虽然出现很多负面新闻,但持续数年的数据中台建设对整个数据智能市场发展还是起到了重要推动作用。第一,数据中台在实际企业业务开展中还是发挥了价值,数据驱动业务、数据驱动决策的理念深入人心,越来越多的企业决策者和业务人员重视数据的价值,将数据分析作为一项重要工具。第二, “数据统一管理与共享服务”等理念被大量企业的技术部门和数据部门所接受,越来越多的企业用这套理念来建设自身的数据开发与管理能力。
DataOps的需求多数来自于技术部门或数据部门负责人,解决的是企业开展数据开发管理工作的挑战。当越来越多的业务部门关注数据,基于数据分析来实现业务增长,对企业的技术部门或数据部门而言,最大的挑战是如何基于有限资源,最大化地满足多个业务部门的数据消费需求。
一味地增加人力和预算,并不能从根本上解决这一问题。以某头部互联网公司为例,其数据开发管理团队一度增加到千人规模,但依然无法满足各个业务部门提出的数据需求。技术部门的挑战一定要通过新的数据开发管理服务标准、流程和协作机制来解决,才能满足企业日益增长的数据消费需求。
爱分析认为,实现数据驱动业务在技术架构创新的同时,还需要关注数据与业务之间的协作机制、流程和标准创新,后者是实现数据驱动业务的关键,DataOps重点在解决这一问题。
3.DataOps考验厂商的产品架构能力
与数据湖仓引擎、实时计算引擎不同,DataOps并非技术架构创新,而是产品架构创新。性能是DataOps项目建设的重要指标,但并非最核心指标。大部分DataOps建设面临的问题是,如何实现技术、数据和业务的融合,同时满足三方的需求。
第一,应用开发与数据开发融合。当前大部分企业的应用开发与数据开发还是分开,但越来越多应用都是数字化应用,基于数据驱动的应用,数据开发与应用开发呈现融合态势,如何在满足IT运维、安全等前提下,提升数据开发的效率是一大挑战,特别是集团型企业多数都有很强的合规要求。
第二,业务深度参与数据开发工作。当前业务和数据之间的协作并不紧密,自助式分析等数据分析工具兴起,让业务部门具备自助式数据分析和管理的能力,但大部分数据开发工作业务部门依然没办法深度参与,会导致很多数据开发工作并不能满足业务需求,特别是在当下业务快速迭代的背景下。
基于上述挑战可以看出,每个甲方企业在落地DataOps项目时,一定存在非常大的差异化,但背后要解决的本质问题会非常类似。对于DataOps厂商而言,需要从数据开发管理的全局出发,以终为始,在设计产品架构时要考虑到企业完整需求,才能够应对不同DataOps项目的差异化甲方需求。
爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出在DataOps市场中具备成熟解决方案和落地能力的入选厂商。
爱分析对本次DataOps项目重点研究的特定市场定义如下。同时,针对参与此次报告的部分代表厂商,爱分析撰写了厂商能力评估。
市场定义:
一站式数据开发管理平台,是指针对整个数据加工链路进行数据的监控、管理和运维,实现数据质量持续提升。
甲方终端用户:
金融、制造、汽车、消费品零售、能源等行业的大数据部门负责人、IT部门负责人
甲方核心需求:
对甲方而言,核心是建立一套面向未来数据开发的机制,提升面向业务视角的数据开发能力,而不仅仅是实现数据整合。
过往,甲方更多是将数据整合和管理作为企业的阶段性目标和项目来完成,对数据如何应用、如何在业务场景中发挥价值关注度不足。在实践过程中,投入大量资源和人力,完成数据整合之后,“取数难”、“用数难”、数据质量低等问题依然存在,甲方还是无法发挥数据的价值。
因此,甲方真正需要具备的是一套完整的数据开发管理的能力,包含但不限于统一开发管理平台、面向业务需求的开发管理流程与机制等。
1)梳理流程,建立统一的开发管理机制。
2)搭建功能丰富、具备扩展性的开发管理平台。
厂商能力要求:
入选标准:
1.符合一站式数据开发管理平台市场分析的厂商能力要求;
2.累计在该市场服务客户数10家及以上;
3.累计在该市场收入5000万及以上;
代表厂商评估:
厂商介绍:
北京火山引擎科技有限公司(以下简称“火山引擎”),是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。
产品服务介绍:
火山引擎数智平台(Volcengine Data Intelligence,英文简称VeDI),基于字节跳动数据平台多年的“数据驱动”实践经验,汇集端到端的数智产品、场景化的行业解决方案和专业的数智转型咨询。其中大数据研发治理套件DataLeap是一站式大数据研发治理套件解决方案,提供数据集成、开发、运维、治理、资产管理等能力。以独立部署方式,通过数据治理的思维,综合运用数据管理制度、人员组织、技术方法和流程标准等手段,帮助企业对数据资产在可用性、完整性和安全上实现全面有效的管理,赋能企业基于数据驱动下的业务创新。目前,已服务几百家来自汽车、零售、互联网、金融、文旅等行业的知名企业。
厂商评估:
整体来看,火山引擎基于数智平台和一站式大数据研发治理套件打造的数据驱动管理解决方案,在产品功能、产品架构与理念、落地实践经验、体系机制四方面具备优势。
1)功能丰富易用,提供一站式数据研发全链路管理。
DataLeap为企业提供基于DataOps敏捷研发流程、海量任务秒级调度能力和开源计算引擎的拓展能力,覆盖数据研发与运维、数据治理、数据资产和安全合规等各个方面,赋能业务团队进行数据自治。
具体来说,在全场景数据整合环节,DataLeap支持20+多源异构数据集成,涵盖常见的业务存储系统,支持全量、增量、实时的数据同步;在全链路的数据研发环节,DataLeap支持多引擎(批、流、OLAP),敏捷开发CI/C,对开发、测试、发布、运维等研发全链路进行管理;在数据治理环节,DataLeap集合了基线监控、数据质量、SLA治理等能力,提供事前预警、事中处理、事后复盘及推荐优化的功能;在数据资产建设方面,DataLeap具备数据资产快速接入及自动构建全链路血缘等技术。
2)技术架构先进,融合分布式数据治理理念,能够应对高并发、大批量数据处理需求。
火山引擎创新性提出分布式数据治理的理念,并落地于DataLeap产品中。DataLeap采用了标准化、组件化的解耦架构,各个模块均可独立使用分布式治理模式,建设周期较短,适配能力强;企业用户不仅能实现各级业务及个人的自驱治理,还能充分根据业务阶段来制定治理的内容,让数据治理对业务的冲击和影响可以尽可能最小化;专业的治理知识可以沉淀下来,实现产品化协同,并结合智能化推荐功能,为企业提升执行效率。
DataLeap通过对引擎和架构的优化,提升了产品性能、扩展性和实时性,以应对业务多样性和复杂度带来的庞大数据处理作业量要求。为满足时效性的需求,火山引擎通过自研的分布式调度系统,实现了秒级调度能力。同时提供了任务的分级打标机制,通过多种任务资源控制方式,实现资源最合理的调配。还可以根据任务的历史情况,对不合理的任务配置,提出配置优化的告警建议。
3)数据技术能力均来自于字节跳动内部多年实践经验的积累与沉淀。
VeDI及DataLeap沉淀了字节跳动各业务线的数据治理经验和规则,适合多种类型客户在业务的不同阶段使用。
字节跳动根据内部业务的痛点和需求,从2014年开始研发并逐步迭代出一套能够挖掘分析海量数据、有效赋能业务的数据平台。利用这一平台敏捷支持内部今日头条、抖音、西瓜视频、朝夕光年等各大业务线后,对大数据的架构、产品、治理、安全隐私、组织设计等方面积累了丰富实践,开始对外To B输出和商业化。目前,火山引擎已经沉淀了完整的行业Know-How,能够基于各部分产品组合和调用为客户提供端到端解决方案,并以整体VeDI的方式呈现。
4)引入BP机制,帮助客户建立体系化的数据治理方法。
火山引擎为客户引入字节成熟的数据BP模式,从组织层面配合数据产品实现数据治理落地,切实把握业务的痛点,让数据工具和平台真正用起来。
数据BP,即“数据业务伙伴”,本质是将具备数据专业能力的人才上升至业务线。数据BP的职责是在一线配合数据分析师充分满足数据需求,同时保障数据治理工作的有序落地。希望在数据治理成果推进到一定程度之后,为企业进一步探索数据赋能业务发展的方法。
火山引擎还会派专家团队驻场,近距离参与企业的数据治理工作中。对企业的实际情况进行具体问题分析后,在数据指标治理、业务数据治理、埋点数据治理、数据底座管理体系四大方向上,给出建议并协助企业进行体系化建设,为企业跨职能的数据治理实践提供长期稳定抓手。
典型客户:
得到
代表厂商评估:
厂商介绍:
科杰科技是一家数据能力构建商,核心技术团队拥有丰富的头部互联网企业云数据平台搭建及运营经验,致力于将成熟完备的数据底座产品与多业态复杂场景的最佳实践有机融合,为企业提供数据管理、开发挖掘、运维一体化的整套方案,助力企业快速构建数据能力,实现高度规范化、敏捷化的数据工作协同与数据应用创新。现已服务百余家 政府单位及金融、能源、汽车、零售等行业头部企业。
产品服务介绍:
科杰科技核心产品湖仓一体数据智能平台 Keen Data Lakehouse是基于云原生技术自主研发的数据底座产品,产品设计内置12大功能模块,在实现多云资源统一纳管、弹性扩展和灵活调度的基础上,满足数据统一采集、存储、开发、管理和服务的需求,具有高性能高稳定性的特性。其中数据开发管理平台Keen BDP、数据同步系统Keen Dsync、实时计算平台Keen Stream、数据标准产品Keen DSM、数据质量产品Keen DQM、主数据管理平台Keen MDM、数据资产目录Keen Asset、数据服务平台Keen DAAS、数据标签平台Keen TAG功能模块与一站式数据开发管理平台直接相关。
厂商评估:
整体来看,科杰科技形成了“领先的大数据技术+全域数据资产管理+大数据工作方法论”三位一体的解决方案,在产品、技术、行业Know-How和咨询服务方面具备优势。
1)产品功能全,产品架构能力强。
2)底层技术架构领先,支撑集团企业多源异构数据统一纳管。
3)行业落地经验丰富,对集团企业的数据资产统一管理和高效协作方式有深刻理解。
4)具备咨询服务能力,能为企业持续构建大数据能力提供建议。
典型客户:
一汽、中石化、永旺、中金公司、银华基金
市场定义:
基于ETL、ELT、CDC、Kafka等方式,从多种数据源采集原始数据,经过数据转换,存储至数据湖(数据仓库)中,实现数据集成和标准化。
甲方终端用户:
制造、汽车、消费品零售、能源等行业的大数据部门负责人、IT部门负责人和业务部门(业务部门ITBP)
甲方核心需求:
甲方的目标是更加敏捷、自动化地搭建数据管道,并对数据管道进行统一管理和编排。
随着数字化转型的深入和数据消费需求的增加,甲方内部的IT环境和数据环境越来越复杂,数据集成工具越来越多,彼此难以融合,相互割裂运行,对运维和管理提出了很高的挑战。与此同时,数据管道的重要度越来越高,特别在业务部门对数据分析需求日益增长的趋势之下,越来越多的数据管道建设需求来自于业务部门。
因此,数据管道逐步从整个大数据平台独立出来,作为一个独立项目进行建设、运维和管理。以新消费、新能源为代表的行业,IT部门规模不大,但业务部门有很强烈的数据分析需求,敏捷、轻量、自助式数据管道建设需求日益增强。
1)数据类型和应用场景越来越多,对数据管道建设提出了更高要求。
2)业务快速迭代,敏捷搭建和自动化运维管理是数据管道建设的必备能力。
厂商能力要求:
入选标准:
1.符合敏捷数据管道市场分析的厂商能力要求;
2.累计在该市场服务客户数10家及以上;
3.累计在该市场收入1000万及以上。
代表厂商评估:
厂商介绍:
谷云科技(广州)有限责任公司成立于2017年,是国内最早一批专注于iPaaS混合集成中台研发的产品和技术解决方案提供商。公司专注于数据集成、服务集成、MQ消息集成、API管理领域,从底层开发框架入手完全自主研发,并基于统一平台自主研发了全线RestCloud系列产品,服务于零售、制造、金融、教育等行业企业客户,以及政府机构等各类组织。
产品服务介绍:
RestCloud 数据集成平台是谷云科技基于DataOps理念完全自主研发和创新的新一代数据集成平台,平台一站式融合了ETL、ELT、CDC、API等能力,可帮助企业客户快速搭建批流一体的数据集成底座,实现业务系统之间的数据集成和多源异构数据的交换和融合。
作为一套面向数据集成的轻量化、标准化产品,RestCloud 数据集成平台采用全Web化配置,开箱即用,能够让用户实现自助式构建数据管道,并具有丰富的组件,帮助用户实现开发、测试、发布、监控、告警、运维等一系列工作。同时,结合谷云科技的API服务平台,RestCloud数据集成平台可以帮助企业快速构建轻量级数据中台,满足企业统一数据管理和数据共享需求,帮助IT部门实现对业务部门的支持。
厂商评估:
整体来看,谷云科技自主研发的数据集成平台在数据传输性能、任务调度架构、产品易用性和系统稳定性等方面具备优势,同时创新的把CDC和ETL进了一体化设计,使得实时流数据和批数据可以进行混合处理和合并。
1)技术能力强,覆盖多种技术路线,满足多种场景数据处理要求。
谷云科技的RestCloud 数据集成平台能够广泛支持企业的各类数据源和数据类型,不但具备功能强大的离线数据处理能力,同时具备实时数据传输能力,能够支持包含国产数据库在内的40多个数据源,以及Kafka、MQTT物联网数据、HTTP等多类型实时数据流接入。
2)产品架构设计能力强,具有标准化、轻量化等特点。
3)产品易用性强,能够满足不同发展阶段的企业需求。
考虑到不同企业用户自身IT能力的差异,谷云科技的RestCloud平台支持自助式开发设计,支持基于纯Java语法的自定义规则和算法,能够通过规则实现复杂的自定义业务逻辑处理。因此,用户通过可视化拖、拉、拽方式,完成数据管道的构建并实现数据抽取、转换、清洗、脱敏、加载等功能。
4)底层技术架构以自研为主,平台系统稳定性、可用性强。
ETL、ELT、CDC、调度平台、API开发平台等技术均以自研为主,而不是基于开源技术架构之上做改进和优化,底层技术能力完全自主可控,提升了整个平台的稳定性和可控性。
典型客户:
浙商证券、中金财富、三一重工、中建科工、亿纬锂能
市场定义:
面向业务场景,结合机器学习和知识图谱技术,实现元数据一站式、自动化管理,包含数据采集、数据血缘、数据标准、数据发现、权限管理、资产监控等。
甲方终端用户:
金融、制造、汽车、消费品零售、能源等行业及政府机关的大数据部门负责人、IT部门负责人
甲方核心需求:
业务与数据“脱节”是很多甲方当前面临的重要问题之一。一方面,数据开发部门对业务理解有限,导致整个数据开发过程缓慢;另一方面,不同业务之间的数据如何打通和融合,建立统一的数据标准,对数据开发部门来说挑战很大。以政府应急管理为例,数据来自于多个不同的委办局,需要以一套标准、流程和规范来开展工作,实现对安全隐患的排查、监督和管理,背后是对不同业务的数据表单、字段和指标的融合和统一。企
针对当前快速、多变的数据服务需求,甲方的目标是基于现有数据资产目录基础上增加更多面向业务场景的标签和指标,实现数据部门与业务部门的连接,并同时具备自动化迭代能力,持续提升数据开发效率。
1)快速梳理业务、建立业务认知的方法论。
2)兼顾当前和未来需求的可扩展架构。
厂商能力要求:
入选标准:
1.符合智能数据资产目录市场分析的厂商能力要求;
2.累计在该市场服务客户数5家及以上;
3.累计在该市场收入1000万及以上。
代表厂商评估:
厂商介绍:
上海爱数信息技术股份有限公司(简称“爱数”)成立于2006年,是领先的全域数据能力服务商。爱数以全域数据能力、统一架构和平台+生态模式,打造创新的大数据基础设施,通过AnyBackup、AnyShare、AnyRobot、AnyDATA、AnyFabric等产品覆盖全域数据的整合、治理、保护,实现数据资产化和知识化,与客户共创数据驱动型组织。依托自身强大的大数据基础设施,爱数已服务超40个国家、地区的27000+客户。
产品服务介绍:
AnyFabric是面向全域数据的数据资产管理平台,为企业或政府机构提供的一套智能数据资产管理解决方案。基于领域认知智能和Data Fabric架构思想,通过对元数据的全面采集、深度学习、认知推理分析,自动关联数据的业务语义,快速生成数据资产知识网络,实现业务与数据的连接,业务与业务的连接,从而实现以业务为中心的数据管理和运营,助力客户实现数据驱动组织,通过认知智能辅助数据管理和业务决策。目前已经在政府、制造、零售等行业率先落地,已经积累了不少成功落地案例。
厂商评估:
整体来看,爱数基于Data Fabric架构研发的AnyFabric在数据管理架构、认知智能和开放集成能力上具备优势。
1)以业务为中心设计产品架构,产品功能丰富且贴近业务需求。
2)融合知识图谱技术,具备自动化和智能化能力。
3)统一技术架构,能够与爱数其他产品线融合,能够提供端到端的解决方案。
典型客户:
中新天津生态城、郴州市城市大脑、中国中车