likes
comments
collection
share

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选

作者站长头像
站长
· 阅读数 14

@[toc]

引言

大家好,我是ChinaManor,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,一个平凡而不平庸的人。 学习大数据差不多一年了,笔者最近在整理大数据学习的笔记资料,这个系列是整理的一些大数据必知必会的知识。

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选

数据仓库典型分层结构:3层结构【ODS层、DW层和DA层】

  • 1)、ODS层数据:原始数据,往往来源于业务系统产生的数据,比如RDBMS表数据、日志文件数据或爬虫获取数据及第三方购买的数据等
  • 2)、DW层:数据仓库层,数据来源ODS成数据,整合拉宽和分析数据
  • 3)、DA层:数据应用层,数据来源DW层数据分析处理,按照需要业务分析

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选

有时,将业务数据中维度数据,单独放到一层:DIM层(维度层),存储都是维度表的数据。

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选 主题指标开发,按照数据仓库分层结构进行存储数据,分为典型数仓三层架构:ODS 层、DW层和APP层,==更加有效的数据组织和管理,使得数据体系更加有序==。

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选

数据分层的好处:

1.清晰数据结构,每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解 2.减少重复开发,规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。 3.统一数据口径,通过数据分层,提供统一的数据出口,统一对外输出的数据口径。 4.复杂问题简单化,将一个复杂的任务分解成多个步骤完成,每一层解决特定的问题。

通用的数据分层设计:

  • ODS:存放原始数据
  • DW:存放数仓中间层数据
  • APP:面向业务定制的应用数据

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选 电商网站的数据体系设计,只关注用户访问日志这部分数据:

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选 各层会用到的计算引擎和存储系统:

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选

京东的数据仓库分层模式,是根据标准的模型演化而来。

数据仓库分层:

BDM:缓冲数据,源数据的直接映像,缓冲:Buffer
FDM:基础数据层,数据拉链处理、分区处理,基础:Foundation
GDM:通用聚合,通用:Generic
ADM:高度聚合,聚合:Aggregation,应用层:Application

总结

以上便是数据仓库的基础概念,愿你读过之后有自己的收获,如果有收获不妨关注一下~ 数仓推荐书目:数据仓库工具箱(第3版) (Kimball著)

大数据必知必会系列——数仓分层架构及三层架构流程引言 面试官前面问技术使用背的 (划掉)回答行云流水,那接下来谈谈项目选

转载自:https://juejin.cn/post/6978294554831093796
评论
请登录