数据仓库的三个常用概念(数据仓库概念)
What a person needed was the RIGHT data.用户需要的是正确的数据。
DATA,数据,客观存在的事实。没有内在的含义,通过电子的方式可以捕获、传输和存储。
Information,信息是基础数据的精简形式。 商业人士通过将数据组织成分析单元(例如,客户,产品,日期)将数据转化为信息,并赋予其相关性和目的。 对于这种相关性和目的而言,重要的是在接收和使用信息的过程中考虑信息。 来自一个职能部门的经理与其他部门的经理有不同的信息需求,并从他们自己的角度查看信息。 同样,这些信息需求因组织层次结构而异。 根据经验,信息用户位于组织层次结构中的位置越高,需要的信息就越多。
Knowledge,是已经综合和背景化以提供价值的信息。 管理者使用信息并添加他们自己的经验,判断和智慧来创造知识,这些知识比信息更丰富,更深刻,因此更有价值。 它是基础信息与价值,规则和来自其他环境的其他信息的混合。
Wisdom,智慧,它将来自底层的知识放入一个框架,使其可以应用于未知和不一定直观的情况。 因为知识和智慧难以构建并且经常是默认的,所以难以在机器上捕获它们并且难以转移。 因此,创建知识或智慧并不是数据仓库的目标。 相反,数据仓库(或商业智能)侧重于通过数据转换来将数据聚合,合并和汇总成信息。
- 数据仓库发展史
在数据仓库出现之前,用户必须直接从存储在操作系统中的原始数据查询所需信息,这种原始数据通常存储在服务于用户应用程序的关系数据库中。 查询运营数据库的优势在于业务用户能够从这些系统接收实时信息,使用分析查询将原始数据转换为有用信息会降低运营数据库的性能。 这是由于聚合需要动态读取大量记录以提供交易摘要(例如,每月销售额,每年收益等)。 在同一个数据库上同时拥有操作和分析用户通常会使数据库超载,并影响双方数据的可用性。
1.1 决策支持系统
为了能够快速访问决策过程所需的信息,企业引入了决策支持系统(DSS)。这些系统结合了各种可扩展和交互式的IT技术和工具,通过处理和分析数据来支持管理人员进行决策。
为了实现其目标,DSS由分析模型数据库组成,该数据库由从源系统提取的选定数据提供。源系统是组织内可用的操作系统,但可以包括任何其他数据源。例如可能包括汇率,天气信息或管理人员做出明智决策所需的任何其他信息。
原始数据在分析模型数据库中或在进入系统的途中聚合。已经开发的用于从数据源提取,转换和加载数据到目标的ETL(提取,转换,加载)工具进行加载:
业务用户可以使用即席查询和针对数据库的其他复杂分析来查询分析模型数据库。在许多情况下,数据是为其目的而准备的,仅包含相关信息。由于决策支持系统与源系统分离,与DSS的交互不会减慢操作系统的速度。
分析模型数据库由ETL过程加载
1.2 数据仓库系统
数据仓库系统(DWH)是一种数据驱动的决策支持系统,它在战略意义上支持决策过程,此外还支持运营决策,例如实时分析以检测信用卡欺诈或在 产品和服务的飞行建议。
数据仓库提供集成的,历史的,面向主题的数据与所有目标级别的业务用户保持一致。 通过关注主题领域进行分析,主题方向与ERP或操作系统的功能方向不同。
例如保险公司的主题领域可以是客户,政策,保险费和索赔。 组织的这种视图允许集成分析与同一现实世界事件或对象相关的所有数据。
在业务用户可以使用数据仓库提供的信息之前,数据将从源系统加载到数据仓库中。组织内部或外部的各种数据源的集成是在业务键上执行的。
如果业务对象(如客户)在每个系统中具有不同的业务键,则会出现问题。如果组织中的客户编号是字母数字,但其中一个操作系统仅允许业务键的数字编号,则可能出现这种情况。当操作系统的数据库包括脏数据时会出现其他问题,这通常是无效或过时的情况,或者没有业务规则。
脏数据的示例包括拼写错误,传输错误或OCR处理的不可读文本。在传统数据仓库中将这些脏数据呈现给业务用户之前,必须清理数据,这是数据集市加载过程的一部分。其他问题包括跨源系统的数据的不同数据类型或字符编码。但是,此数据清理有例外情况:例如,是否应向业务用户报告数据质量。
将数据加载到数据仓库时经常执行的另一项任务是对原始数据进行一些聚合以满足所需的粒度。 数据的粒度是数据仓库支持的数据单位。 不同粒度数据的一个示例是销售员和销售区域之间的差异。
在某些情况下,业务用户只想分析区域内的销售情况并且对给定推销员的销售不感兴趣。 造成这种情况的另一个原因可能是法律问题,例如与工会达成协议或法律约束力。 在其他情况下,业务分析师实际上想要分析销售人员的销售额,例如在计算销售佣金时。 在大多数情况下,数据仓库工程师遵循目标以尽可能最精细的粒度加载,以允许多个级别进行分析。 但是,在某些情况下,操作系统仅以粗粒度提供原始数据。
许多数据仓库的一个重要特征是保留了历史数据。 已加载到数据仓库中的所有数据都将存储并可用于时变分析。 这允许分析数据随时间的变化,并且是业务用户经常要求的,例如,分析在过去几个季度中给定区域中的销售的发展。
因为数据仓库中的数据是历史性的,并且在大多数情况下,在源系统中不再可用,所以数据是非易失性的。 这也是信息系统可审计性的重要要求。
数据仓库术语:ETL、粒度、源系统
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com