云原生数据中台¶
前言¶
数据平台(Data Platform),作为企业数据化运营的基础:打通企业各个部门之间的数据,形成统一的数据开发和使用规范,在企业各个部门之间实现数据能力的抽象、共享和复用。
数据中台落地应该采取业务驱动、快速落地、小步快跑的方式,不是一开始就做一把大而全的万能钥匙。
第1章 全面了解数据中台¶
1.2 什么是数据中台¶
中台提供数据能力的共享和复用,前端业务部门可以快速获得全局的数据洞见及现成的数据工具,快速推出由数据支持的产品。
1.2.1 数据中台建设的目标¶
建设数据中台的最终目标是通过高效的数字化运营,实现“快速市场响应,精细化运营,开源节流”。
所有数据工具的建设目的都是从数据中提取价值来支持更有效的数字化运营。
通过提供工具、流程和方法论,实现数据能力的全局抽象、共享和复用,赋能业务部门,提高实现数据价值的效率。
1.2.3 数据中台的定义和4个特点¶
数据中台是企业数字化运营的统一数据能力平台,能够按照规范汇聚和治理全局数据,为各个业务部门提供标准的数据能力和数据工具,同时在公司层面管理数据能力的抽象、共享和复用。
- 能够借助汇聚全局的数据为用户赋能。
- 实现数据能力的抽象。
- 可以通过工具体系让企业各部门方便的共享抽象出的数据能力。
- 可以高效地管理数据能力,并加以复用。
第3章 数据中台与数字化转型¶
通过打通数据壁垒,构建数据采集、治理、分析与利用所形成的闭环,提高企业运营效率
第4章 从大数据平台到数据中台¶
第6章 数据中台建设方法论¶
6.1 基础架构¶
OLAP计算引擎:Apache Kylin。图计算引擎:Neo4j
6.3 顶层架构设计¶
顶层架构设计划定以下内容
- 企业的主数据,如客户产品,订单,供应商,员工,渠道等。
- 数据域:能够覆盖主要业务流程的抽象数据主题,如交易域、用户行为域、市场营销域、库存域等。
- 核心业务流程与主数据和数据域的关系由谁负责,以及有哪些关联部门。
6.5 业务驱动¶
业务驱动是指根据实际业务需求和痛点来决定数据应用开发的优先级。
6.9 数据中台建设流程¶
图6-3
第8章 数据中台与云原生架构¶
8.1 云原生架构及云平台¶
云原生架构是一种利用云计算优势来构建和运行应用程序的方法。包括四个要素:
- 微服务
- 容器
- DevOps
- 持续集成和持续交付(CI/CD)
其核心思想是将应用分解成简单、独立、明确的任务处理模块,独立运行在容器中,通过RESTful API将处理结果返回给外部;同时,应用开发的流程采用DevOps的方法论和工具链来实现持续集成和持续交付,使代码的发布及相关容器镜像的创建都能够自动完成,不需要软件开发人员过多干预
第11章 数据资产管理¶
11.2 数据资产管理定义¶
核心是“能够为企业产生价值的数据资源”以及“控制、保护、交互和提高数据资产的价值”
11.4 元数据管理¶
图11-1
11.5 开源的元数据管理系统¶
Apache Atlas
第12章 数据流水线管理¶
12.1 数据流水线的定义与模型¶
图12-1
数据流水线是一个数据处理应用管理系统,它负责发布、调度、运行、管理所有自动的数据处理应用,将数据从各个数据来源进行提取、转换、分析、存储,最后形成可被直接使用的形式。
12.4 数据流水线示例¶
图12-3
12.7 数据流水线管理系统的组件¶
图12-4
12.8 批流合一的数据流水线¶
图12-5
第14章 数据门户¶
14.2 硅谷的数据门户建设¶
14.2.1 Twitter的DAL和EagleEye¶
14.2.2 LinkedIn的Data Hub¶
14.2.3 Airbnb的Data Portal¶
14.2.4 Lyft的Amundsen¶
图14-2
14.2.5 Netflix的Metacat¶
图14-3
14.2.6 Intuit的SuperGlue¶
14.2.7 硅谷数据门户总结¶
表14-1
14.4 数据门户的实现原理¶
图14-5
14.6 数据应用的自助及协同工作¶
图14-6
References¶
- 云原生数据中台:架构、方法论与实践