近日,「让业务用起来 · 观远数据2022智能决策峰会暨产品发布会」北京站圆满落幕,水滴公司数据平台产品部负责人SKY在峰会北京站现场带来《水滴数据建设实践及思考》主题分享。SKY在分享中讲述了水滴数据团队在过去一年中,如何让业务将数据用起来的同时,让水滴数据团队逐步迭代成为一个让业务主动点赞的团队,受到与会数据从业者、关注数据能力建设的企业嘉宾的一致点赞。
水滴公司是中国领先的保险和健康服务科技平台,创立于2016年4月,以“用互联网科技助推广大人民群众有保可医,保障亿万家庭”为使命,致力于为用户提供健康保障解决方案,旗下拥有「水滴保」、「水滴筹」和「翼帆医药」等业务。
在水滴公司的组织架构中,数据团队属于研发体系,属于研发中台角色,对接的业务部门包括业务运营团队、产品团队以及业务商分。从数据团队所负责的水滴数据平台架构来看,其中包含了各种报表工具、试点分析工具、AB实验平台、标签画像系统、数据管理系统、问卷系统等等,应有尽有,囊括众多。
“水滴数仓模型是典型的分层数仓架构,数据流量较大。以水滴筹业务为例,每天活跃大量的筹款人、捐款人和页面访问者。”SKY在分享中举例到。庞大的数据量级让水滴公司的数据建设面临挑战。
再深入探究“痛处”所在,为什么数据团队做了很多事情却没有得到业务的认可?SKY回顾一年前数据建设前的状态,从四个视角维度进行了梳理:
1、数据生命周期视角
数据生命周期,包括从数据生产到数据清洗,再到数据存储和数据消费。在各种理论书籍中,我们都能看到数据体系在数据治理方面面临的各种问题,如数据生产方面,存在数据质量问题、埋点缺失以及数据同步问题;数据清洗方面,存在数据不同源问题,实时数据处理能力等问题;数据存储方面,存储性能问题、模型优化问题;数据消费方面,数据工具的可用性、易用性问题。
针对数据消费方面,SKY特别说到,“从业务视角来看,如果工具不好用,为什么要自己用?还不如直接提需求,让数据团队给结果就好。数据团队就会沦为接需求的‘取数工具’,沦为‘表哥’‘表姐’”。
2、需求生命周期视角
数据需求生命周期的视角中,从需求的提出、梳理、排期、验收到数据运营,水滴数据团队也遇到了各种问题。
首先是需求提出环节,面对业务需求,要对合理性和必要性进行评估。
其次是需求梳理环节,“在需求的口径里,商家给了一个指标参考,其实是希望你参考他的标准。但如果完全照搬过来生成表,会发现数据往往都有问题,但不参考,数据又肯定跟他的市场分析对不齐。”SKY在分享中讲到,这里所讲的其实就是需求指标口径对齐的问题。
再到评审&排期&开发环节,SKY描绘了一个数据人普遍遇到过的场景,“需求提过来的时候着急忙慌地做,开发完了到验收环节,反而变成更复杂的一件事。需求没有验收,没有到业务最后的闭环,做的事情就不算有价值。”
在数据运营环节面对的问题则在于需求逻辑不透明,一旦数据出现异常,排查问题就更耗时耗力。
3、数据工具赋能视角
对于数据工具赋能角度所面临的挑战,SKY在分享中举了个例子。比如,所用工具要么不具备基本能力,导致业务侧无法自己使用,比如一些高级的数据分析系统。业务想要建表,只能把需求提给数据团队,没有使用工具的能力就不能自己做;要么工具性能面临较大的挑战,比如在指标管理、看板系统上,底层的数据表性能超过千万级,性能瓶颈就非常明显,体验也非常不足;此外,自助BI工具缺失,让业务想要进行专题数据分析时,只能提给数据团队进行机器查询,数据团队自己反复写,把数据算好,再放到Excel里给业务分析。
4、需求协作流程视角
在过去复杂的需求协作流程里,业务将需求提给商业分析团队,商分把需求提给数据产品,数据产品再把需求提给数仓。对业务来说,只是想简单看一个数据,需求提出后要对两遍口径,对完之后还需要等排期;对商分来说,也会感觉自己应该是给业务做商业分析和专题规划的人,结果却一直在取数、对口径,成为了“取数员”;对数据产品来说,本来是给业务定义价值的人,却发现自己天天当“表哥”“表姐”;对数仓来说,一直在埋头做需求,无法更深入全面地获得反馈,感受到需求背后的价值。每一个环节上的人员体感都会不好,这也导致上下游信任度较低,影响工作效率。
在这样的情况下,水滴数据团队当时做了什么样工作,才让整个内外环境发生巨大的变化,让业务团队对数据团队主动点赞?
破局的第一步是问题剖析。分享中,SKY讲述了水滴数据团队结合行业现状和公司当时业务阶段分析总结出的两个关键问题。
1、关键问题剖析
“所有的数据工作本质上是服务业务,所有的工作都是为了让业务迭代更加快。而业务迭代的本质其实是不断试错,在不断试错中快速找到正确的方向,让业务实现增长,这是业务的本质。试错成本越低、速度越快,业务成长就越快。数据建设就应该要让业务迭代的速度越来越快。”SKY在分享中讲到。
当业务试错成本越来越高,为了提高效率,就会不断增加人手,但如果增加的人手数据意识不足,就会导致数据从源头开始质量就较差。
SKY将这个过程总结为「数据负循环」,“如果发现日常工作中有很多单独提过来的数据埋点需求,它反映的就是整个链路上是有问题存在的。需求的价值应当在做功能设计的第一步就充分想清楚,数据埋点、回收等也需要提前规划,数据建设才能合理,否则会进一步推高业务的试错成本,形成数据的负循环。”
在负循环中,数据会越来越不标准,数据质量越来越差。与此同时,业务侧不断加人则会让下游需求“爆炸”。业务侧将一个需求提给分析师,分析师处理一遍提给数据产品,整个流程中一个需求变两个,两个变四个,下游接到的需求会急剧增加。
「工作和协同的负循环」也在此形成。“如果在下游需求'爆炸'的时候,没有一个很好的机制让下游的人控制上游同学正确的提需求,或者正确挖掘真实痛点的话,就会导致上游盲目提需求,下游忙不过来。此时如果业务还在高速增长,那么下游也会持续不断的加人。”
下游增加人力要解决的是业务当前阶段提出的大量需求,但这个需求或许只是想要的“want”,而不是真正需要的“need”。所有人都在忙着持续交付短期方案,让人才画像变形的同时,也会导致持续的数据不合理,让业务试错成本越来越高,形成工具和协同的负循环。
这两大负循环带来的问题,即是水滴和不少公司在数据建设时所面对的困境。
找到症结所在,下一步就是寻找破局方案。
2、破局四大措施
破局的方案在哪里?水滴数据团队分析了「数据负循环」与「工作和协同负循环」的具体情况,从中找到了一些关键破局点,并在过去一年里通过“4个关键措施”,开启水滴数据建设实践:
措施一:有效需求管理,从源头把控数据质量
首先,数据系统参与到业务需求的内审和评审。业务在提需求的时候数据团队即参与审核,确定需求究竟要做什么、怎样提交数据方案才合理、提交的数据方案审定是否标准等。同时,在这个过程中,与业务同学一起做数据方案,帮助业务同学提升数据意识,提高双方的信任度。其次,针对业务需求的开发,做一些简单的工具以方便在开发时进行校验,并在开发排期时就将数据工作加到排期中。最后,在最关键的需求上线环节,设置QA收口,做好流程和数据质量的严格把控。
通过这个措施的落地,水滴数据团队首先把握住了源头需求的质量。
措施二:缩短对接流程,提高工具对业务的有效支撑
这里最重要的调整之一,是数据产品直接承接了业务所有临时取数需求,而整个措施则可以分成相连的三个部分来看:
◆ 缩短对接流程
流程调整前:业务会有很多临时性的取数看数需求,但缺乏报表或推送,无法自主完成,只能提需求给分析师;分析师就只能写SQL给业务取数。
流程调整后:业务提出取数需求,原来需要1-2周才能做完,现在通过专门的通道,临时需求1天就能上线。业务获得非常好的体感,需求得到有效解决,同时分析师可以将更多精力投入数据分析业务洞察。
◆ 数据产品通过取数全面了解业务需求
对数据产品来说,承接这些重复性且没有技术含量的临时取数工作有什么价值?SKY对此有自己的看法。
“这在我看来是非常重要的需求,它反映了业务当前阶段在思考的问题。为什么业务要看这个数?为什么想要获得相应的数据结果?一定是最新思考的业务策略需要快速进行验证,而需求支持的效率决定了业务迭代的效率,所以即便是业务临时的取数需求,也是非常重要的需求。”
◆ 通过产品化提高工具对业务的有效支撑
另一角度上,SKY认为业务反复的临时取数需求也反应了数据建设能力的不足,数据产品需要就此思考。“数据产品毕竟是产品而不是运营,我们有研发资源、有产品化能力。业务提过来的究竟是什么需求,是一个工具可以满足的需求,还是增加工具能力就能够满足的需求,是通用的场景还是特殊的场景,我们可以进行判断。”
基于这样的判断接受需求后,搭配配套的落地措施,就能在满足业务需求的同时让数据产品的工作也更高效。而配套的落地措施除数仓“专有人力对接取数需求,第一时间交付”之外,还有两点:
• 明确OKR目标,以不断收敛需求数量为目标
每一个数据产品的临时需求必须要有收敛的数量,比如这一个月接了20个,那下一个的目标一定要降低。”
• 定期Review临时需求,抽象产品能力逐步迭代
为了收敛需求数量,数据产品就会思考分析业务提出的临时取数需求的类型,以及如何来提高满足需求的效率。比如宽表透视需求,是否能教业务使用BI产品;漏斗分析需求,能不能教会业务使用用户行为分析的系统;营销触达需求,能否通过营销平台将数据闭环自动化等等。
还有另一个重要发现,只有极少数的需求是真正的一次性的临时需求,是短期的快速试错中需要的,而大部分需求都是因为基础工具能力缺失,导致要反复取数。
在OKR目标和定期的临时需求Review机制的推动下,数据产品会将业务痛点逐步迭代成真实的产品能力,让整个机制跑起来,更加贴合业务场景,提高工具对业务的有效支撑。
“临时需求的对接流程调整,成为了我们实现产品化能力有效迭代的一个非常重要的手段和措施。”
措施三:引入三方成熟BI,提高业务数据使用效率
水滴公司的BI建设,经历了从“引入国外厂商BI”到“自研BI”再到“国产化BI替代”的过程。SKY在分享中介绍了水滴公司的BI建设情况。
2019年,水滴公司引入国外厂商BI产品,但由于该产品在服务支持方面的不足,让水滴公司在2020年1月开始转向自研BI。经过了一年多的自研开发,投入了很多的时间与人力,水滴公司做出了内部的报表生成工具。但这套自研BI无法完全替代成熟BI产品的自助分析能力,业务用不起来。于是在2021年第三季度,水滴公司启动了采购三方成熟BI产品的方案,并开始了为期两个季度的试点。
试点开始采用的是其他厂商的BI产品,在两个季度的试点里也取得了较好的成效,这让水滴公司坚定了引入成熟三方BI产品的道路。在2022年第二季度,经过谨慎甄选,水滴公司最终采购了观远数据的BI产品。
“在试点之后最终采购观远数据的BI产品,我们看中的是观远数据BI本身的产品能力。两个季度的试点过程中,我们不仅坚定了采用成熟BI产品的信心,更重要的是明确了自己的需求。”SKY在分享中讲到最终选择观远数据BI产品的原因,并总结了其中的几个关键要素:
◆ 企业级:底层分布式架构支持
SKY提到,水滴公司此前试点的BI产品底层架构不是分布式的,底层分析性能、处理性能和扩展性不足,当上千万的产品数据要导入BI,经常会无法导入或无法及时分析。观远数据BI产品底层是分布式架构支持,具备企业级BI能力,这是水滴公司选择观远数据BI产品的第一个要素。
◆ 业务性:便于业务自助分析
SKY对此进行了简单的举例说明,首先是ETL的能力,在水滴公司常用的BI场景中,需要给业务提供简单的ETL能力,方便业务自己分析而不用给别人提需求,在这方面,观远数据有简单易用的智能ETL,拖拉拽式操作,清爽的可视化数据流处理界面,能够满足各式各样的数据处理场景,让业务人员也能高效用起来。
同时,SKY还提到了观远数据BI具备的复杂报表的能力。“复杂报表能力业界其他BI产品也有,但从我们的角度评估,观远数据BI所具备的复杂报表能力好在它是集成式的。我们可以把数据在BI系统上处理好,拖进复杂报表里,复杂报表可以把分析师在本地Excel上处理的逻辑全部在线化、标准化,有非常好的体验,并可以极大的提升人员效率,同时团队成员制作的报表也可以很好的留存和沉淀。”
◆ 应用性能力:灵活敏捷
以指标管理能力为例,水滴公司本身有指标管理系统,用观远数据BI就可以在数据集上添加公共指标,并且指标可以用SQL原生语法做。SKY在分享中讲到:“这一点很关键,因为之前试点的产品没有这个能力,最后不能跟水滴公司内部指标管理系统打通,并且因为它是自定义语法,不是专对互联网行业,语法不一样,我们内部有大量的指标已经做好,如果要迁移且用自定义的语法,工作量就会很大。”
综合多方面因素,水滴公司最终与观远数据合作。对于观远数据BI产品上线后效果如何,SKY通过两个数据趋势进行了展示:
SKY表示,观远数据BI产品上线一个多季度后带来了非常喜人的效果。活跃用户持续增长,目前使用的用户9月份的数据是400多个,而现在更是远远不止。自助型看板数量9月份是不到600个,现在已经到了1000多个。
“自助型看板数量非常能代表产品的价值”,SKY提出,BI应该是让每一个业务部门的同学也都能够有能力自己使用,能够自己得出业务成果,而不是只有数据部门的同学用。自助型看板就意味着需求是业务同学自己做出来的,不用把需求提给数据团队,这个数量代表着BI工具给了业务更高效的赋能。
SKY分享了一个来自业务方的真实故事:“一个多月前,我们突然收到某条重要业务线领导的留言。留言写着‘非常感谢你们团队上线的BI产品,给我们极大赋能,我们整个业务流程所有的工具、所有的看板数据都能自己进行发现,月会、周会、日会各种数据汇报得到极大提效,让大家可以更专注在业务流程上’。当时我们觉得很惊奇,这条业务线并没有增加人力做支持,为什么突然来了这么大的点赞?我从后台把数据调出来,仔细看了一下他们部门的人做了什么,看了之后更加惊奇。他们部门自建了上百张看板,而且全部都是业务同学自己做的。因为这个部门之前有一些数据建设,所以他们的业务同学发挥主动性,把日常各种流程,细致地从一级管理者到三级管理者全部自己做了很好的搭建。这让我们特别高兴,这也是我们采购成熟BI产品的初衷,说明我们达到了当时的目标。”
措施四:团队升级,明确岗位职责、提高要求
具体手段是:汰换+引入+培养,以汰换和引入为主,以内部培养为辅,这里涉及到了数据团队对于自己的定位问题。
“作为数据中台的产品,工作结果不是给业务做了多少需求,而是真正跟业务一起拿到多少结果,业务在这个方向有没有探索出结果,这才是要关注的。”作为水滴数据平台产品部门负责人,SKY认为从以终为始的角度看,数据团队要跟业务站在一起思考业务的痛点和需求,才能更好地支持业务。业务的痛点应该通过什么方式、工具、手段解决,这是需要考虑的问题。解决痛点的过程中,数据应怎样建设,这是数据团队更应该前置考虑的。
“这往往代表着一个人的心态,大部分的同学会更多关注在怎么满足业务提过来的需求,能够积极主动站在业务的角度思考问题的同学相对较少。”
SKY面试过很多数据产品的同学,经常会问一个问题——你是更看重人的能力,还是更看重人的态度?很多人比较关心能力,但从水滴公司的角度来说,会更关注态度,因为态度不太能够改变。一个积极主动的人即使专业能力较弱,也一定可以培养,这是水滴公司的理念。在过去一年多的时间里,水滴公司内部进行过汰换,也吸入了很多新鲜的血液,保障团队行动力,让团队能够更好地执行战略。
通过以上主要的四个措施以及其他工作,水滴数据团队成为了让业务主动点赞的优秀数据团队。
数据建设是一件长期的事情。从水滴公司的角度,目前所做的工作只能算是刚刚起步,要将整个数据工作做好、将数据治理、数据框架等等建设的更加成熟、能够更好更高效的支持业务,还有更多工作要做。面向未来,水滴公司还有更多想法与计划。
1、产品迭代
SKY分享了水滴公司对未来在产品迭代方面的一些计划:
全面迁移至观远数据BI产品
统一内部所有的数据出口、指标口径、内部数据看板,尤其是场景化的应用,例如群聊天推送机器人等,更是水滴公司下一步想要实现的场景。
“我们提供的服务不一定要让用户必须在我们的平台上才能使用,只要业务用户能够高效得到看板数据,其实就是提效。所以,我们非常看重能够把数据通过各种方式有效推送到用户面前,比如通过图片+链接的方式推送到飞书的群里或飞书的个人聊天框里。”SKY分享了水滴数据团队过去几个月给观远数据提到的需求,而这跟观远数据本身的产品能力以及对水滴数据建设的规划也十分匹配,因此这一需求很快得到了支持和响应。与此同时,水滴公司的指标管理平台也会结合观远数据的数据集指标管理能力,统一全公司的数据口径。
提高数据应用体验
聚焦内部其他平台,例如用户行为分析、标签画像等核心工具,从业务实际需求出发,降低门槛、提升数据准确度、提高体验,更好的满足用户需求。
优化元数据管理
基于源数据应用,以数据搜索为核心,通过可视化的方式,综合反映有关数据的信息,让用户找到数据、理解数据、使用数据。
统一数据服务
横向数据联动,挖掘数据价值,提供统一的数据接口、组件的服务。
保障数据质量
数据资产生命周期管理,计划打通内部人力系统,让数据资产得到有效管理,把控数据生产规范,确保数据源头质量。
安全隐私保障
持续安全隐私保障,对数据进行安全分级,权限管理、使用监控,对不同角色设置不同的访问/下载/使用权限。
2、人人都是分析师
面向未来,水滴公司希望能够真正践行“人人都是分析师”,并将其分为几个层次:
• 业务不一定需要提需求,能够解决的自助场景可以自己解决,对于解决不了的专题场景,可以提给分析师;
• 对于某些场景数据能力不足的,数据产品和分析师一起支持业务。同时,对于业务的取数需求,以及需要专业能力进行业务数据建设的需求,直接与数据产品进行对接。
SKY分享了水滴公司基于“人人都是分析师”场景下设想的未来业务对接流程:
SKY讲到,基于“人人都是分析师”场景设定的未来的业务对接流程,总的核心是希望围绕观远数据自助式BI平台,通过数据平台产品提供自助能力,给到各方赋能,让所有的人能够用起来,能够自己解决问题。自助场景比例越高,“人人都是分析师”这条路就会走得越远。