当前位置: 江南文明网 > 科技 >

跨多云大数据平台DataCake详解

条评论

跨多云大数据平台DataCake详解

 茄子科技(海外 SHAREit Group)作为穿越周期的新一代全球化互联网科技公司,在全球市场一路高歌猛进,短短两年时间,茄子科技旗下产品 SHAREit(国内茄子快传)全球用户超 12 亿,2019 年,SHAREit 全球用户超 18 亿。截至目前,茄子科技产品矩阵全球累计安装用户量近 24 亿。海量的数据规模、快速发展的公司业务对大数据平台提出了复杂、苛刻的需求。

本文将介绍茄子科技大数据团队自主研发的跨多云自助式大数据平台 DataCake。主要包括以下三大部分:

1. 大数据平台的背景 & 挑战

2. DataCake 解决方案

3. DataCake 未来规划


分享嘉宾|张韶全 茄子科技 大数据部门技术总监

编辑整理|Leo 长亮科技

出品社区|DataFun


01

背景 & 挑战

1. 背景

 

DataCake 是为了解决企业的数据需求而诞生、发展的,数据对企业的重要性已经不言而喻。可以概括为以下三个方面:

① 数据量:数据已经是企业最为核心的资产,同时全球生产的数据量仍然呈现出指数级的增长;

② 应用场景:数据的应用场景也更加广阔、深入,数据驱动已经体现在产品全流程的流水线中,数据科学已经成为了科学研究的第四种范式;

③ 数据潜力:数据分析市场的潜力同样巨大,数据仓库、数据科学领域依旧受到资本热捧,有研究报告指出,基于数据驱动的企业每年可以额外获得 30% 的数据增长。

2. 挑战

 

如何发挥出数据的价值,面临着很多挑战。在 DataCake 团队与公司内部需求方与外部客户的沟通中,将所面临的挑战从不同的角度可以分为三类:

(1)业务负责人

业务数据化是容易事,但这仅仅完成了数据记录,实现数据业务化才是变废为宝的关键。大数据条线运营成本居高不下,需要维护大量历史任务、业务作业。

(2)数据分析师、数据科学家

在大多数公司中,大数据部门以一个中心化的中台部门的形式存在,数据需求与开发之间需要业务部门与开发部门进行跨团队沟通,流程复杂、开发排期周期漫长。大数据技术生态组件繁多,分析人员技术基础弱学习成本高。

(3)技术负责人

业务团队快速试错,库表 ETL 任务快速膨胀,任务归属、血缘依赖和数据权限混乱。大数据、云计算产品众多,技术体系架构复杂,对使用者不透明。

以上挑战又可以总结为两大问题:

① 数据无法发挥价值:投入了大量的成本但看不清数据在业务价值上的收益;

② 数据治理无从下手:业务需求复杂、历史作业众多、大数据技术组件零散,数据体系搭建困难。

有三组数据可以表明上述两大问题的危害:

① 66% 的数据是没有被利用的;

② 84% 的管理人员不相信数据的价值;

③ 70% 的企业没有高效的数据架构。

--

02

解决方案

1. Data Mesh 思想

为了解决上述问题,DataCake 引入了数据驱动的组织架构 Data Mesh 思想。该思想旨在通过软件架构来促进公司组织架构的变革。其中一个核心思想就是,将中心化(Centralized)的数据团队,转变为领域驱动(Domain-driven),让业务负责数据。

 

在传统的中心化数据团队组织中,企业内部的一个数据团队要服务于多个业务部门,而Data Mesh 则是一种分布式的数据合作方式,也就是领域驱动。主要的变化在于每个部门自己拥有相关的数据,对自己的数据负责。Data Mesh 通过三个方面来实现这一目的。

① 自助化平台 Self-Serve Platform:利用自助化数据平台,业务自己轻松实现相关数据需求的开发任务。

② 数据即产品 Data as a Product:数据产品化可以促进跨团队之间的数据合作,提高数据的利用效率。

③ 联邦数据治理 Federated Governance:在分布式数据开发与应用之外,也需要集中式的数据治理机制,这样才可以保证数据的安全与质量。

DataCake 就是一个基于 Data Mesh 思想构建的大数据平台,在该软件思想的践行中,也促进了组织架构的变革。相关部门负责人可以结合自己的实际需求和领域知识来实现敏捷试错和快速迭代。