云原生数据中台

前言

数据平台(Data Platform),作为企业数据化运营的基础:打通企业各个部门之间的数据,形成统一的数据开发和使用规范,在企业各个部门之间实现数据能力的抽象、共享和复用。

数据中台落地应该采取业务驱动、快速落地、小步快跑的方式,不是一开始就做一把大而全的万能钥匙。

第1章 全面了解数据中台

1.1 数据中台概念的起源

1.1.1 艺电的“数据中台”改造

1.1.2 Twitter的数据驱动

1.2 什么是数据中台

中台提供数据能力的共享和复用,前端业务部门可以快速获得全局的数据洞见及现成的数据工具,快速推出由数据支持的产品。

1.2.1 数据中台建设的目标

建设数据中台的最终目标是通过高效的数字化运营,实现“快速市场响应,精细化运营,开源节流”。

所有数据工具的建设目的都是从数据中提取价值来支持更有效的数字化运营。

通过提供工具、流程和方法论,实现数据能力的全局抽象、共享和复用,赋能业务部门,提高实现数据价值的效率。

1.2.3 数据中台的定义和4个特点

数据中台是企业数字化运营的统一数据能力平台,能够按照规范汇聚和治理全局数据,为各个业务部门提供标准的数据能力和数据工具,同时在公司层面管理数据能力的抽象、共享和复用。

  1. 能够借助汇聚全局的数据为用户赋能。
  2. 实现数据能力的抽象。
  3. 可以通过工具体系让企业各部门方便的共享抽象出的数据能力。
  4. 可以高效地管理数据能力,并加以复用。

1.3 大数据平台与数据中台

1.3.1 为什么要建设数据中台

OneID是一种全局的数据规范,OneModel是一个数据能力抽象的成果,OneService是一种可复用的数据能力的形式。

图1-1

1.3.2 数据中台与传统大数据平台的区别

图1-2

  • TotalPlatform:所有中台数据及相映的应用,应该在统一平台中统一管理。
  • TotalInsight:数据中台应该能够理解并管理系统中的数据的流动,提供数据价值的定量衡量,明确各个部门的花费和产出。

第2章 数据中台能力和应用场景

2.1 数据中台不是“银弹”

2.2 数据中台的核心能力

2.2.1 全局商业洞见

2.2.2 个性化服务

2.2.3 实时数据报表

2.2.4 共享能力开发新业务

2.3 数据中台的行业应用场景

2.4 数据中台如何为企业赋能

第3章 数据中台与数字化转型

通过打通数据壁垒,构建数据采集、治理、分析与利用所形成的闭环,提高企业运营效率

3.1 数字化转型的4个阶段

SoE行为系统,SoI洞察系统,SoR记录系统

3.1.1 信息化

3.1.2 数据仓库

图3-1

3.1.3 大数据平台

3.1.4 数据中台

3.2 数据驱动

图3-2

数据驱动系统的关键在于以下三个特点

  1. 持续
  2. 洞察
  3. 动态

3.2.1 面向用户的数据驱动产品及服务

  1. 产品推荐
  2. 用户推荐
  3. 内容搜索
  4. 数据指数
  5. 个性化服务
  6. 产品线的交叉推广

3.2.2 面向内部业务部门的数据驱动服务

  1. 用户画像
  2. 内容感情分析
  3. 内容自动标签
  4. 知识图谱
  5. 趋势预测
  6. 活跃用户统计
  7. 用户增长分析(留存率、漏斗)
  8. 产品性能报告
  9. 反欺诈
  10. 数据及服务/模型及服务
  11. 风控服务

3.2.3 数据驱动的系统管理

  1. 数据资产管理
  2. 数据探索
  3. 合规
  4. 异常检测

3.3 数据中台如何支持数字化转型

第4章 从大数据平台到数据中台

4.1 大数据平台建设阶段

4.1.1 大数据平台起步

DevOps: Ansible、Puppet、Chef、Fabric

4.1.2 系统自动化

工作流系统:Oozie、Azkaban、Airflow

4.2 数据管理及应用阶段

4.2.3 数据安全

Hadoop的Kerberos身份验证

4.3 数据能力中台化阶段

4.3.3 云原生架构的支撑

图4-5

4.4 DataOps

4.4.1 什么是DataOps

一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。

4.4.5 DataOps与数据中台

数据中台描述了最终的目标,而DataOps提供了一条实现这个目标的最佳路径

第5章 数据中台建设须知

5.2 从失败的大数据项目中吸取教训

企业数据平台的成功要素:

  • 快速启动
  • 高价值
  • 使用场景
  • 尽早实现数据价值

第6章 数据中台建设方法论

6.1 基础架构

OLAP计算引擎:Apache Kylin。图计算引擎:Neo4j

6.3 顶层架构设计

顶层架构设计划定以下内容

  • 企业的主数据,如客户产品,订单,供应商,员工,渠道等。
  • 数据域:能够覆盖主要业务流程的抽象数据主题,如交易域、用户行为域、市场营销域、库存域等。
  • 核心业务流程与主数据和数据域的关系由谁负责,以及有哪些关联部门。

6.5 业务驱动

业务驱动是指根据实际业务需求和痛点来决定数据应用开发的优先级。

6.9 数据中台建设流程

图6-3

第7章 数据中台的架构

7.1 数据中台的功能定位

数据中台让流程产生的结果和能力能够在全局共享和复用

图7-1

7.3 典型的硅谷大数据平台架构

图7-2~7-4

7.3.4 云平台作为大数据平台的通用底座

Apache Mesos

7.4 数据中台架构

图7-5~7-6

7.5 数据中台子系统

7.5.1 应用基础能力平台

7.5.2 数据基础能力平台

7.5.3 数据集成开发平台

7.5.4 数据资产运营平台

第8章 数据中台与云原生架构

8.1 云原生架构及云平台

云原生架构是一种利用云计算优势来构建和运行应用程序的方法。包括四个要素:

  • 微服务
  • 容器
  • DevOps
  • 持续集成和持续交付(CI/CD)

其核心思想是将应用分解成简单、独立、明确的任务处理模块,独立运行在容器中,通过RESTful API将处理结果返回给外部;同时,应用开发的流程采用DevOps的方法论和工具链来实现持续集成和持续交付,使代码的发布及相关容器镜像的创建都能够自动完成,不需要软件开发人员过多干预

8.2 PaaS平台的主要功能

表8-1

图8-1

第9章 数据中台建设与开源软件

9.4 应用基础能力平台的开源选择

表9-1

9.5 数据基础能力平台的开源选择

表9-2~9-3

9.6 数据集成开发平台的开源选择

表9-4

第10章 数据湖与数据仓库

10.1 数据湖

图10-1

10.2 数据仓库

表10-2

图10-3

10.2.4 数据清洗

解决数据质量问题

让数据更适合做挖掘

第11章 数据资产管理

11.2 数据资产管理定义

核心是“能够为企业产生价值的数据资源”以及“控制、保护、交互和提高数据资产的价值”

11.3 主数据管理

主数据对应企业的核心业务实体。包括以下元素:

  • 用户
  • 产品
  • 用户行为
  • 用户标签
  • 广告

11.4 元数据管理

图11-1

11.5 开源的元数据管理系统

Apache Atlas

第12章 数据流水线管理

12.1 数据流水线的定义与模型

图12-1

数据流水线是一个数据处理应用管理系统,它负责发布、调度、运行、管理所有自动的数据处理应用,将数据从各个数据来源进行提取、转换、分析、存储,最后形成可被直接使用的形式。

12.3 数据流水线的运行方式

图12-2

表12-1

12.4 数据流水线示例

图12-3

12.7 数据流水线管理系统的组件

图12-4

12.8 批流合一的数据流水线

图12-5

第13章 数据中台应用开发

13.1 数据应用的形态

13.4 数据中台应用的开发和管理

13.4.1 应用调度系统

Airflow、DataKitchen、StreamSet、Data Factory

第14章 数据门户

14.2 硅谷的数据门户建设

14.2.1 Twitter的DAL和EagleEye

14.2.2 LinkedIn的Data Hub

14.2.3 Airbnb的Data Portal

14.2.4 Lyft的Amundsen

图14-2

14.2.5 Netflix的Metacat

图14-3

14.2.6 Intuit的SuperGlue

14.2.7 硅谷数据门户总结

表14-1

14.4 数据门户的实现原理

图14-5

14.6 数据应用的自助及协同工作

图14-6

第16章 EA“数据中台”实践

16.4 体系架构

图16-2

16.6 数据应用产品

16.6.2 打造动态游戏体验

图16-4

第17章 零售行业的数据中台

17.2 零售行业数据中台解决方案

图17-1

17.3 零售行业数据中台的建设

图17-2

17.3.3 数据仓库建设及数据分析

图17-3

第18章 物联网领域数据中台建设

18.1 现代物联网的产业链

2020年中国智能物联网(AIoT)白皮书

图18-1

18.3 物联网数据中台架构

图18-2

References

  • 云原生数据中台:架构、方法论与实践