什么是现代数据栈?
现代数据栈(MDS)是一种新颖的数据整合 方法,可能会节省时间,同时也专注于高价值的任务。它是分析架构的核心。现代数据栈是由传递、管理和分析数据的工具和技术组成的。数据流程、数据管理和查询以及分析将是现代数据栈的基础。这篇文章将着重于理解传统数据栈的现代化。以下是将要涉及的主题。
目录
- 数据栈
- 关于现代数据栈
- 为什么它被称为现代数据栈?
- 现代数据栈是如何工作的?
- 为什么一个组织要更新他们的数据栈?
要产生价值,首先必须对数据进行组装、分类、清理,并在分析项目中使用。让我们先来谈谈数据栈。
数据堆栈
在数据栈的帮助下,数据可以被消费。数据堆栈类似于一个数据厨房。
考虑一下你是如何做一顿饭的。大多数组件本身是不能吃的,它们确实含有营养物质,但你不会想吃小麦或生蔬菜。然而,如果厨房里有合适的设备,如一个搅拌碗、一个烤箱、一个厨房计时器、一个平底锅、勺子和铲子,以及一个能够遵循指示的厨师,这些以前不能吃的物质就会变成每个人都会喜欢的华丽的饭菜。
乱七八糟的信息碎片并不吸引人。然而,在穿越了数据堆栈之后,这些零碎的信息已经被转化为有意义的事实和维度表,并有明确的字段名和类型,很容易被企业的各个部门消化。
这个数据栈里面是什么?
它远不止是一个数据仓库。完成四个核心功能的工具构成了数据堆栈。
- 装载过程涉及将数据从一个位置移动到另一个位置。
- 将所有的东西存储在一个地方,一般是在云端,有仓储。
- 将其转化为可以利用的数据。
- 为团队提供分析和商业智能。
关于现代数据栈
随着时间的推移,组织会把他们的数据平台分成特定的部分,如应用程序,分析等。术语 "数据栈 "开始流行起来,用来定义一组组件或技术,以支持数据的流动和使用分析。
为了有效,现代数据堆栈由许多组件或技术组成,它们必须被组合成一个统一的设计。这些技术中的许多都可以作为捆绑的基于SaaS的应用程序。在某些情况下,组织可能会选择自己开发单个组件,特别是当他们有不寻常的要求或想节省资金时。数据转换就是一个很好的说明,一些公司决定用Python和SQL编写数据操作。
一个有效的现代数据栈对于推动企业更多的采用分析技术,以及在一般情况下更多的使用数据是至关重要的。低效的数据堆栈会导致技术方面的成本超支(较高的云计算成本)和较高的人员成本,并限制组织对数据的有效利用。
随着数据仓库和分析市场向云端转移,人们发明了创新的新方法和流程,使数据堆栈和操作数据堆栈更加高效。这些变化包括。
- 将单一的ETL(提取、转换和加载)数据整合流程改变为更高效的ELT(提取、加载和转换
- 将尽可能多的处理集中在云数据仓库中,以利用其可扩展和具有成本效益的计算和存储优势
- 利用新发明的产品类别来帮助管理数据栈中的数据。
- 使用较新的基于云的分析工具,让分析师和数据科学家有更大的自由来寻找洞察力。
为什么叫现代数据栈?
现代数据堆栈和传统数据堆栈之间最显著的区别是,传统的数据堆栈被安置在云中,并且需要用户的最低技术配置。这些特点增强了最终用户的可访问性以及可扩展性,使你能够轻松地满足你不断扩大的数据需求,而不需要承担扩展本地服务器实例所带来的昂贵和耗时的停机时间。
现代数据栈,最终降低了数据整合的技术障碍。现代数据栈的组件在设计时考虑到了分析师和商业用户,确保不同背景的人不仅可以利用,而且可以管理这些工具,而不需要大量的技术专长。
使用现代数据栈可以节省时间、金钱和精力。与内部解决方案相比,云计算和存储的廉价和下降的价格继续推动了现代数据堆栈的成本节约。现成的连接为您的分析师、数据科学家和数据工程师节省了时间,否则他们将花费在创建、构建和管理数据连接器上,使他们能够专注于更高价值的分析和数据科学计划。
现代数据栈是如何工作的?
现代数据栈(MDS)解决了评估数据的目的,以找到新的潜力领域并提高效率。MDS是由许多层堆积在一起的,每一层都有其独特的目的。
数据整合
将几个来源的数据整合成一个单一的、有凝聚力的视图,被称为数据整合。作为整合过程的一部分,摄入阶段涉及清洗、ETL映射和转换。企业可以通过数据整合从分析工具中获得可操作的洞察力。
在数据整合方面,没有一个适合所有人的解决方案。作为替代方案,数据整合解决方案通常涉及到数据源网络、主服务器和与主服务器互动的客户端。
在一个典型的数据整合方案中,客户端从主服务器请求数据。基本数据随后由主服务器从内部和外部来源收集。这些数据来自许多来源,然后合并成一个单一的、连贯的数据集合。这将返回给客户供其使用。
数据存储
数据仓库通常是一个基于云的解决方案,用于存储由数据采集工具获得的所有数据。它通常被称为数据湖。云数据仓库或数据湖是现代数据栈的核心。它也是EL工具、数据转换工具以及商业智能和分析工具的主要查询界面。
任何数据处理,无论是数据加载还是转换,都将依赖于云数据仓库或数据湖的相当大的计算能力,以及加载或转换数据的基础存储。当查询数据时,商业智能和分析应用程序也将依赖这种处理能力。云数据仓库或数据湖也将管理和管理基础数据安全和治理规则和政策。其他的数据堆栈技术,如安全和治理功能,应该与CDW或数据湖的基本控制功能相配合。
在选择特定的云数据仓库或数据湖之前,有一些关键点应该被关注。
- 自动弹性可扩展性确保在运行数据进程或查询时,只获得所需的计算资源。
- CDW或数据湖的计算和查询资源的效率和颗粒度,以确保数据栈的成本尽可能低。
- CDW或数据湖的安全性应该是强大的。应用和管理安全和治理的便利性。
- CDW或数据湖对实例的可用性,以及它们可运行的地方。
- 需要工作的数据格式种类,以及CDW或数据湖是否支持这些格式,并允许在平台内有效使用。
数据转换
ELT(提取、加载和转换)过程包括数据转换和建模工具。他们把提取和加载工具提供的原始数据,转化为分析团队可以使用的东西。原始数据将被数据转换技术转换为许多不同的数据模型,以便在各种分析用例中使用。数据模型可以是中间的,允许许多下游的模型利用它们,或者它们可能是最终的,允许分析人员直接使用它们。
商业智能
在这里对数据进行评估,并建立仪表盘,以便用户可以检查信息。领域专家现在可以对业务查询作出回应,而不需要依赖开发人员或分析师。
数据治理(DG)
DG指的是使企业系统中的数据可用、可访问、安全,并在本质上符合内部标准和法规,以及管理数据消费的过程。数据治理确保了数据的可靠性、安全性和一致性。数据治理法规正在迫使企业考虑新的方法来保护他们的数据,以及依靠数据分析来简化操作和做出更好的决策。从本质上讲,有两种类型的数据治理。
- 数据目录使企业能够跟踪和了解他们的数据,从而提高数据的可发现性、质量和共享。如果没有这些技术,数据湖会迅速恶化成一个数据沼泽。
- 当涉及到数据保护时,数据隐私工具协助公司遵守法律。敏感数据泄露等问题可以得到解决。
为什么一个组织应该更新他们的数据栈?
虽然采用当前的数据堆栈还有其他的优势,但有三个主要的优势将现代数据堆栈与传统的版本区分开来。
管理
数据堆栈一直是由使用它们的团队构建和发展的。虽然这种技术本质上没有什么问题,但这些数据堆栈通常是非常定制化和脆弱的。如果没有数据工程师和其他技术工人的支持,这些数据栈可能很快就会变得很麻烦,并构成一个巨大的维护问题。同样的解决方案可以通过利用当前的数据栈,使用特别为每个用例创建的工具来完成。
当局限于一个典型的数据堆栈的架构时,可扩展性可能是一个重要的障碍。当采用当代数据堆栈时,可扩展性可以快速实现,并且不限于某些工具。MDS技术旨在处理针对它们的多少流量和处理。一家公司在其数据仓库中遇到性能挑战就是一个例子。这可能很容易解决,只需通过简单的用户界面设置和即时扩展来提高仓库的容量。
灵活性和模块化
现代数据堆栈看起来就像一个微服务。这使得强大的工具创建能够解决现代数据栈中的特定操作。此外,通过以这种方式构建工具,当代数据堆栈的所有操作可以松散地连接在一起,当涉及到堆栈活动的互换时,提供选择的自由。
作为模块结构的现代数据堆栈解决方案协助企业减少供应商锁定的危险。由于当代数据堆栈技术是作为微服务或模块构建的,它们基本上解决了同样的问题,尽管有细微的差别。此外,由于这些工具不依赖于它们周围的工具,它们是松散的连接,允许简单的互换。
技术壁垒
技术障碍最终比传统的数据栈要低。对组织来说有两个主要好处:
- 构建和维护数据堆栈不需要大数据团队。
- 数据团队以前可能花在开发和管理数据堆栈上的时间,现在可以重新分配给利用和理解数据,提供更快的洞察力和敏捷的数据团队,可以增长数据请求能力。
结论
脆弱的数据栈和浪费的操作使得继续构建和扩展数据栈变得更加困难。这也阻碍了做出关键数据驱动的选择所需的洞察力。现代数据堆栈横跨一切,从数据堆栈的极度模块化组件,使获取洞察力变得非常容易,减少技术障碍,为企业提供巨大价值。通过这篇文章,我们已经了解了现代数据栈和数据栈的演变。
转载自:https://juejin.cn/post/7107079187688587271