在当今快速变化的企业环境中,组织正在转向基于云的技术来方便地收集、报告和分析。这就是数据仓库作为商业智能的核心组件发挥作用的地方,它使企业能够提高绩效。了解什么是数据仓库以及它为何在全球市场中不断发展非常重要。
在本文中,我们将概述数据仓库 – 探索数据仓库架构、数据仓库的特点、什么是数据管理、数据仓库的好处以及数据科学中的数据仓库应用等关键概念。
什么是数据仓库?
据了解,两位IBM员工Paul Murphy 和 Barry Devlin在20世纪80年代末创建了Business Data Warehouse,这标志着数据仓库的开始。然而,英蒙·比尔提供了主要的概念,他被认为是数据仓库的发明者。英蒙·比尔撰写了与仓库建设、运营、维护和企业信息工厂相关的各种主题的文章。
所谓数据仓库,它是充当存储和分析信息的中央存储库,以做出更明智的决策。组织的数据仓库通常定期从各种来源接收数据,包括事务系统、关系数据库和其它来源。
数据仓库是一种集中式存储系统,可以存储、分析和解释数据,以促进更好的决策。事务系统、关系数据库和其他来源定期将数据提供到数据仓库中。数据仓库是一种数据管理系统,可促进和支持商业智能(BI)活动,特别是分析。数据仓库主要是为了方便搜索和分析而设计的,通常包含大量的历史数据。
此外,数据仓库还可以定义为从运营源和外部数据源提取的组织数据和信息的集合。数据定期从销售、营销和财务等各种内部应用程序中提取,包括客户界面应用程序以及外部合作伙伴系统。最终,这些数据可供决策者访问和分析。
那么,究竟什么是数据仓库呢?简单来说,数据仓库是一个包含当前和历史信息的综合存储库,旨在提高组织的绩效。
数据仓库架构
数据仓库架构作为包含来自各种来源的历史和交换数据的信息系统是复杂的,多个数据库中的数据根据数据仓库架构进行组织。现代数据仓库布局决定了从原始数据获取信息的最有效方法,因为数据必须经过排序和清理才能有价值。构建数据仓库层有单层、两层和三层三种模式。
1、单层架构
单层的目标是存储尽可能少的数据,从而消除数据冗余是目的。实际上,单层架构并不经常使用。为了实现这一点,它消除了冗余数据以保留尽可能少的数据。单层数据仓库的制作方式减少了存储的数据量,同时制作了密集的数据集。
尽管这种仓库设计风格适合消除冗余,但对于数据需求复杂、数据流多的公司来说并不适合。多层数据仓库架构可以在这种情况下提供帮助,因为它们可以处理更复杂的数据流。
关系数据库系统通常由底层或数据仓库服务器表示。这种架构很容易受到攻击,因为它没有根据需要将分析处理和事务处理分开。在解释中间件之后,分析查询被批准用于操作数据。这就是查询对事务工作负载的影响。
2、两层架构
两层数据仓库架构的数据结构在实际数据源和仓库本身之间保持了清晰的分离。与单层相反,两层模型使用系统和数据库服务器。这种类型的数据仓库架构通常由使用服务器作为数据集市的小型企业使用。尽管两层结构在数据管理和存储方面更好,但不可扩展。此外,它只容纳少量用户。它由数据流的四个连续阶段组成,分别是:
- 操作性数据源层(Operational Data Sources Layer): 在这一层,原始的操作性数据从不同的数据源(如数据库、日志文件等)中抽取、清洗并加载到数据仓库中。数据通常以原始格式存储,准备进入下一层的数据处理。
- 数据仓库层(Data Warehouse Layer): 这是数据仓库的核心层,也被称为集成层或存储层。在这一层,数据从操作性数据源层中提取并转化成更加结构化、适合分析的格式。这可能包括将数据合并、去重、转换成维度模型(如星型或雪花型模型)等。这个层次的数据被组织成用于支持分析的结构,以便用户能够执行复杂的查询和报表。
- 业务智能层(Business Intelligence Layer):在这一层中,数据仓库中的数据被用于执行各种分析、查询和报表操作。通常,这一层使用数据仓库中的数据来创建数据可视化、仪表盘、报表等,以满足不同用户(包括业务分析师、经理等)的分析需求。这些工具和应用使用户能够以更加直观的方式与数据互动,以支持决策制定。
- 前端用户层(Frontend User Layer): 这是最上层的用户界面,也是最终用户直接与数据仓库交互的层次。用户可以通过各种应用程序、工具和报表阅读器来访问和查询数据仓库中的数据。这一层的界面和工具应该易于使用,使用户能够根据自己的需求和技能级别进行数据分析和探索。
这种分层4层模型有助于将数据仓库的不同功能和层次划分清楚,使数据从原始操作性数据到最终的用户报表都能够在适当的层次进行处理和转化。每个层次都有其特定的目标和职责,从而支持从数据提取到分析报告的整个数据处理流程。
3、三层架构
三层架构包括源层(许多源系统)、协调层和数据仓库层。协调层位于数据仓库和源数据之间。协调层的主要优点是它为整个公司创建了一个统一的参考数据模型,此外还列出了填充数据仓库的问题与获取源数据并将其放在一起的问题之间的区别。顶层、中层和底层构成了这个层次结构:
- 底层:通常使用关系数据库系统。使用后端工具清理、更改数据并将其加载到该层中。
- 中间层:使用ROLAP或MOLAP范例开发的在线分析处理(OLAP)服务器构成了数据仓库的中间层(它包括缓存层)。该层充当数据库和最终用户之间的联络人。
- 顶层:前端客户端层构成顶层。在这里,连接以从数据仓库提取数据的工具和应用程序编程接口(API)被视为顶层。
数据仓库特点
数据仓库具有以下四大特点:
- 主题导向(Subject-Oriented): 数据仓库是以主题为导向的,即它们聚焦于特定的业务主题、领域或分析需求,而不是按照应用系统或业务流程进行组织。通过将相关数据集中在同一主题下,用户能够更轻松地进行跨部门或跨功能的分析,而无需查阅多个系统或数据源。
- 集成性(Integrated): 数据仓库整合来自不同数据源和系统的数据,将其转化为一致的格式和模型,以便于分析和查询。这种数据整合能够消除数据冗余、不一致性和重复存储,提供用户一个一致的数据视图。
- 时间性(Time-Variant): 存储在数据仓库中的数据以时间元素显式或隐式地记录。主键中展示了数据仓库中时间差异的一个示例,主键必须具有时间元素,例如日、周或月。它们能够记录历史数据,以追踪随时间变化的业务情况。这种时间性能够支持趋势分析、历史数据对比以及预测性分析等。
- 非易失性(Non-Volatile): 数据一旦进入数据仓库就必须保持不变。所有数据都是只读的。输入当前数据时,不会删除先前的数据。。数据仓库的非易失性确保分析结果的稳定性和可重复性。
通过这些特点,数据仓库旨在为企业提供一个优化的数据存储和分析环境,以支持更深入的业务洞察和决策制定。
数据仓库类型
数据仓库主要分为三种类型,具体如下所述。
企业数据仓库(EDW)
这种类型的仓库充当关键或中央数据库,促进整个企业的决策支持服务。该类型的仓库的优点是它提供对跨组织信息的访问,提供统一的数据表示方法,并允许运行复杂的查询。
操作数据存储(ODS)
这种类型的数据仓库是实时刷新的,它通常是存储员工记录等日常活动的首选。当数据仓库系统不支持业务的报告需求时,一般就需要它。
数据集市(Data Mart)
数据集市是为维护特定部门、区域或业务单位而构建的数据仓库的子集。企业的每个部门都有一个中央存储库或数据集市来存储数据。来自数据集市的数据定期存储在ODS中。然后,ODS将数据发送到EDW,并在其中存储和使用数据。
数据仓库如何工作
数据仓库将从各种来源收集的数据和信息集成到一个综合数据库中。例如,数据仓库可能会合并来自组织的销售点系统、邮件列表、网站和评论卡的客户信息。它还可能包含有关员工、工资信息等的机密信息。企业使用数据仓库的此类组件来分析客户。
数据挖掘通过一系列步骤和流程来实现数据的提取、转换、加载和分析。以下是数据仓库的基本工作流程:
- 数据提取(Extraction): 数据仓库的工作开始于数据提取阶段。在这一阶段,原始数据从各种来源(如操作性数据库、应用系统、日志文件等)中抽取出来。数据抽取可以通过批处理作业、实时数据流或增量更新等方式进行。
- 数据转换(Transformation): 提取的数据往往来自不同的源,可能有不同的数据格式、结构和质量。在数据转换阶段,数据被清洗、转换和整合,以便能够在数据仓库中进行分析。这可能包括数据清洗、格式转换、数据合并、去重和数据质量检查等。
- 数据加载(Loading): 在数据加载阶段,经过转换后的数据被加载到数据仓库中。数据加载可以分为全量加载和增量加载。全量加载将所有数据加载到数据仓库,而增量加载只加载新增或修改的数据,以保持数据仓库的最新状态。
- 数据存储(Storage): 加载到数据仓库的数据被存储在仓库内部的数据结构中。通常,数据仓库采用维度模型(如星型或雪花型模型)来组织数据,以便支持高性能的多维分析。
- 数据分析(Analysis): 存储在数据仓库中的数据可以被用户和分析师用于执行各种查询、分析和报表操作。这些操作可以通过数据可视化工具、SQL查询等方式进行,从而获取有关业务趋势、模式和见解。
- 数据呈现(Presentation): 分析结果可以通过报表、仪表盘、数据可视化工具等方式进行呈现。这使用户能够更容易地理解和解释数据,支持业务决策和规划。
整个数据仓库工作流程旨在将多源、杂乱的数据转化为有意义的信息,为企业的决策制定提供支持。数据仓库的设计和维护需要考虑数据质量、性能优化以及适应不断变化的业务需求。
另外,数据挖掘是数据仓库的功能之一,涉及在大量数据中寻找有意义的数据模式并制定创新策略以增加销售额和利润。
数据仓库工具
数据仓库技术代表了一个相对成熟的市场,这意味着有几种顶级工具可供选择。其中一些包括以下六大工具。
1、Snowflake
Snowflake是一种可用于创建适合企业级应用程序的云数据仓库的解决方案。通过使用户能够使用单一语言SQL来完成混合、分析和转换操作,它简化了处理数据的过程。
处理能力和存储因共享的多集群设计而异。Snowflake的独特功能包括云中立方法、多个集群的共享数据架构、分离工作负载和并发的能力、最少的管理以及容纳半结构化数据等。因此,可以根据用户活动对CPU资源进行收费。不仅如此,可扩展性还可以加速查询性能以获得富有洞察力的结果。
2、Azure Synapse Analytics
Microsoft的Azure Synapse Analytics是一种开放式分析解决方案,结合了数据集成、企业数据仓库和大数据分析。Azure Synapse统一了这些领域,以提取、调查、准备、处理、管理和提供数据,以满足紧急BI和机器学习需求。
Synapse Analytics还提供了新功能以及结构化查询语言数据仓库的这些特征。这包括分析、查询和存储非关系数据的能力,与其它Microsoft技术、ML和BI的接口以及提供更多功能高效的大容量数据输入、转换、管理和处理。
3、BigQuery
Google的BigQuery是一种高端数据仓库解决方案。它是顶级的仓库解决方案之一,因为它支持闪电般快速的SQL查询,从而缩短了存储和查询大型数据集所需的时间。此外,它还规定了谁有权访问该项目,并提供检查或查询数据的选项。
Google BigQuery提供无缝数据访问控制和自动信息共享。其主要功能包括灵活的数据摄取、云数据流、读写数据以及自动数据传输服务。用户可以完全控制谁可以查看保存的数据。
4、Amazon Redshift
这是一种低成本、易于使用的数据仓库技术。通过SQL,它检查几乎所有类型的数据。当使用Amazon Redshift独立扩展计算和存储时,有必要分析不同生产工作负载的计算需求。这将保证Amazon Redshift集群架构的计算层得到适当的平衡。安装Amazon Redshift不需要任何前期费用。它允许你通过自动化大多数常规管理流程来监控、管理和扩展数据仓库。
5、IBM®Db2®Warehouse
IBM®Db2®Warehouse提供了一个客户端托管的预定义数据仓库,与私有云、虚拟云以及支持容器的其他系统一致。当人们必须在保持云的灵活性的同时保留对数据的控制时,它被设计为最佳的混合云选项。IBM InfoSphere Warehouse系列中的解决方案将DB2的强大功能与IBM数据仓库架构相结合。使用 InfoSphere Warehouse可以构建具有前端分析工具和高度可扩展的关系数据库的综合数据仓库系统。
6、Oracle Data Warehouse
Oracle Data Warehouse将一组数据视为一个整体,主要功能是存储和检索相关数据。允许多个用户访问相同的数据有助于服务器成功管理大量数据。Oracle实施了许多自助服务功能来提高分析师、数据科学家和开发人员的工作效率。这种相对较新的云计算系统具有可扩展性、响应灵敏且易于使用的特点。
Oracle Autonomous Data Warehouse可以支持单实例和真实应用集群以及真实应用测试。它支持任何私有云和Oracle公共云之间的通用架构,从而实现高速连接以移动大量数据。与UNIX/Linux和Windows平台无缝兼容,支持虚拟化,并且能够连接到远程数据库、表和其它资源。
数据仓库与数据库的区别
数据仓库(Data Warehouse)和数据库(Database)虽然都是用于存储和管理数据的系统,但它们在设计、用途和功能方面有一些主要区别。以下是数据仓库和数据库的主要区别:
- 用途和目标:
- 数据库:数据库通常用于支持应用程序的操作性需求,如事务处理、数据的增删改查。数据库的主要目标是确保数据的一致性、完整性和可用性。
- 数据仓库:数据仓库旨在支持分析和决策制定,它聚焦于将多个数据源整合、存储和处理,以便用户能够进行复杂的跨部门分析、趋势分析和报表生成。
- 数据结构和模型:
- 数据库:数据库通常采用事务处理和规范化数据模型,以确保数据的一致性和避免数据冗余。
- 数据仓库:数据仓库使用维度模型(如星型或雪花型模型)来组织数据,以支持多维分析。它可能对数据进行去规范化,以提高查询性能和分析效率。
- 数据处理:
- 数据库:数据库主要处理事务性操作,如数据插入、更新和删除。查询也可以执行,但通常更关注数据的实时性和一致性。
- 数据仓库:数据仓库处理批处理和复杂查询。它们可以处理大量数据,支持数据转换和清洗,以及复杂的分析操作。
- 数据历史:
- 数据库:数据库通常存储当前和活动数据,不太关注数据的历史变化。
- 数据仓库:数据仓库可以存储历史数据,支持时间序列数据的分析和趋势分析。
- 性能优化:
- 数据库:数据库通常优化事务处理和即时查询的性能。
- 数据仓库:数据仓库优化复杂查询和分析操作的性能,可能采用列式存储等技术。
- 数据来源:
- 数据库:数据库通常是支持特定应用程序的数据存储,数据来源相对有限。
- 数据仓库:数据仓库整合多个数据源,可能来自不同的部门、应用程序和系统。
所以,数据库和数据仓库在设计和使用上具有不同的侧重点,用于满足不同的数据管理和分析需求。数据库适用于支持实时的事务处理,而数据仓库适用于支持复杂的分析和决策制定。
数据仓库应用示例
接下来让我们看一些例子,以便了解公司如何使用数据仓库作为其日常运营的一个组成部分。
投资和保险公司使用数据仓库主要分析客户和市场趋势以及相关数据模式。在外汇和股票市场等子行业中,数据仓库发挥着重要作用,因为单个点的差异可能会导致全盘的巨大损失。
零售连锁店使用数据仓库进行营销和分销,因此他们可以跟踪商品、检查定价政策并分析客户的购买趋势。他们使用数据仓库模型来满足商业智能和预测需求。
此外,医疗保健公司使用数据仓库概念来生成治疗报告,与保险公司以及研究和医疗单位共享数据。医疗保健系统严重依赖企业数据仓库,因为它们需要最新的、更新的治疗信息来拯救生命。
实际上,数据仓库的应用还包括许多方面,例如银行业务、政府办公业务、制造业生产及流通、教育中的学习分析等待,目前已经广泛运用。
总结
通过上述内容介绍可以看出,一种特定的数据管理方法(称为数据仓库)是专门为通过聚合数据分析促进商业智能而构建的。除此之外,仓库可能包含仅用于查询目的的历史数据。它通常使用各种来源,包括事务程序和应用程序日志文件。
多种技术和元素的结合促进了数据的战略使用。大量数据由公司以电子方式存储,用于分析和查询而不是交易处理。这涉及将数据转换为信息,同时确保用户可以轻松地访问这些信息,从而具有影响力和价值。
在数据仓库中,来自多个来源的大量数据被集中和整合。组织可以利用其分析技能来增强决策,从数据中获得有价值的业务见解。随着时间的推移,它会创建历史记录,数据科学家和业务分析师可以利用这些记录来发挥自己的优势。
组织的运营数据库与决策支持数据库分开。实际上,仓库与其说是产品,不如说是一种环境。它是信息系统的架构设计元素,为用户提供对传统操作数据存储中可能不易访问的最近和历史决策支持数据的访问。
如今,数据仓库现在已成为大型企业的主要产品。它们帮助从一个位置的多个来源收集不同的数据,以便企业可以通过与商业智能软件集成来运行高级分析。根据Allied Market Research最新的一份报告显示,到2028年,全球数据仓库市场将达到521.9亿美元,这间接反映了数据仓库系统在未来的重要性。