随着数字化转型的深入,以及金融科技的不断发展,金融银行业的应用系统正在经历从功能型系统向数据型系统转型,金融企业越来越认识到全量数据的价值所在。目前,国内个别大型银行已经完成数据湖的初期建设,实现以 “一湖两库”(数据湖+数据仓库+信息库)为核心的大数据2.0架构,提升大数据服务能力。
通过建立数据湖对全量数据进行沉淀和积累,打通各业务系统之间的数据共享、拓宽应用范围、加速业务探索、释放数据价值,从而为企业发展注入新动能,已成为金融银行业的迫切需要。国内各银行也认识到数据湖的潜在前景,正在积极地进行着技术探索和选型储备。
近几年数据湖的探索和落地过程中,企业对于数据的实时性越来越重视。一方面要求全量数据在湖内即时可用,一方面更强调数据入湖的高时效性:
当前,在金融业大数据架构中,多种数据形态呈共存状态,如ODS、数仓、主题集市等,在全量数据完备性、时效性、共享能力、技术栈复杂度方面,存在明显的局限性。
架构 | 特点及局限 |
ODS | 保留周期短,即用即清理,无全量数据累积,仅T+1 |
数据集市 | 为特定主题单独构建,烟囱式建设,无全量数据累积 |
数据仓库 | 高度模型化,建模成本高,时效T+1甚至更久 |
巨杉数据库深耕金融银行业,聚焦于从数据湖到湖仓一体的技术架构,针对业界对全量数据实时查询及处理的需求,提出实时数据湖技术方案。
实时数据湖提供了一种全量、即时使用、高性能的数据存储理念。它强调“先入湖,后使用”,即数据以原始形态,全量集中存储,在湖中按需随时使用。通过丰富的计算引擎,提供多样化的数据处理及服务能力,灵活应对联机对客查询、数据分析、批处理加工、数据科学等业务场景。
巨杉数据库「实时数据湖」具备如下技术特点:
相比于传统的ODS、数据集市和数据仓库,「实时数据湖」的优势在于:
ODS | 数据集市 | 数据仓库 | 实时数据湖 | |
数据范围 | 由集市、数仓需求决定 | 面向特定主题或部门 | 面向多个主题及大量业务系统 | 面向大量业务系统甚至全行 |
保留周期 | 日级 | 各层按需保存,从日到年不等 | 各层按需保存,从日到月不等 | 可按需设置,日/月/年/永久 |
时效 | T+1 | T+1 | T+1 | 支持T+0/T+1 |
加载方式 | 批量 | 批量 | 批量 | 流式/批量 |
数据内容 | 原始数据 | 过程数据/结果数据 | 过程数据/结果数据 | 原始数据/过程数据/结果数据 |
查询特点 | 无 | 固化的,基于主题的 | 固化的,全局的 | 灵活,可固化可即席 |
服务类型 | 无 | 加工/分析计算/结果查询 | 加工/分析计算 | 贴源明细查询/批量加工计算/分析/结果查询 |
某大型股份制银行,以巨杉数据库作为存储底座,构建了实时数据湖。
典型业务场景,例如:
巨杉数据库拥有100%自研的分布式数据库内核,目前已在银行、保险、证券等各领域,拥有丰富的最佳实践及案例,提供实时数据湖存储底座,助力客户实现提升降低成本、提升用户体验、提升运营效率、探索业务价值等目标。
未来,巨杉将与合作伙伴紧密携手,提供优质的产品、技术服务及生态支持,在数字化转型过程中,共同助力客户释放全量数据价值。