大数据数据库关系数据库(数据库数据仓库)
数据分析与数据挖掘的区别是什么
什么是数据库
一般而言,我们所说的数据库指的是数据库管理系统,是一款软件。
传统关系型数据库事务设计原则ACID以下四点必须全部满足:
原子性Atomicity:事务中操作要么都发生,要么都不发生;
一致性Consistency:事务前后数据完整性保持一致;
隔离性Isolation:多个用户并发事务相互隔离;
持久性Durability:事务被提交后数据的改变就是永久性的。
根据数据存储的方式不同,可以将数据库分为三类:分别为行存储、列存储、行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBase、Teradata等;行列混合存储的数据库代表产品有TiDB,ADB for Mysql等。
什么是数据仓库
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
- 面向主题的:根据使用者的需求,将来自不同数据源的数据围绕着各种主题进行分类整合。
- 集成的:来自各种数据源的数据按照统一的标准集成于数据仓库中。
- 相对稳定的:数据仓库中的数据是一系列的历史快照,不允许修改或删除,只涉及数据查询。
- 反映历史变化的 :数据仓库会定期接收新的集成数据,从而反映出最新的数据变化。
数据仓库不是一个产品。数据库属于一种产品。
那么,数据仓库该怎么构建呢,目前使用Hive构建数据仓库的比较多。总之一句话,数据仓库涉及数据建模,数据抽取ETL,数据可视化等一系列的流程,是一种数据解决方案,通常需要多种技术进行组合使用。
数据仓库的本质是OLAP,即是做在线分析处理,这是与数据库的本质区别。
数据库是为了解决OLTP而存在的,而数据仓库是为了分析数据而存在的。
数据库的数据是数据仓库的数据源,即将数据库的数据加载至数据仓库,所以说,数据仓库不生产数据,只做数据的搬运工。
数据仓库并不是必须的,但是对于一个业务系统而言,数据库是必须的。只有在业务稳定运转的情况下,才会去构建企业级数据仓库,通过数据分析,数据挖掘来辅助业务决策,实现锦上添花。
什么是数据集市
数据集市(Data Mart),就是满足特定的部门或者用户的需求。数据从数据仓库中抽取出来的。
什么是大数据平台
大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等功能为一体的平台。通俗的理解包括Hadoop生态的相关产品,比如Spark、Flink、Flume、Kafka、Hive、HBase等经典开源产品。
提到Hadoop生态技术,不得不提的是Apache和Cloudera。国内绝大部分公司的大数据平台都是基于这两个分支的产品进行商业化包装和改进。例如:阿里云EMR、腾讯TBDS、华为FusionInsight、新华三DataEngine、浪潮Insight HD、中兴DAP等产品。
其实,对于大数据平台,业内并无一个固定的能力范围。当前比较权威的是全国信标委今年发布了大数据平台的国标 《GB/T 38673-2020 信息技术 大数据 大数据系统基本要求》,将大数据系统划分为数据收集、数据存储、数据预处理、数据处理、数据分析、数据访问、资源管理、系统管理8个部分,分别对各部分提出技术要求。所以会发现每个厂家推出的大数据平台都包含很多功能、甚至组合的产品,属于大数据的产品种类非常多。
什么是大数据开发平台由于大数据技术很多,单独使用的学习成本很高,为了提升数据开发的效率,也就出现了大数据开发平台。简单讲,数据开发平台就是集成了大数据平台的一个开发套件,比如阿里云的DataWorks就是一个代表,DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
什么是数据湖
数据湖是一个存储企业的各种各样原始数据的大型仓库。
具备以下几个特性
1、 数据湖需要提供足够用的数据存储能力,保存了一个企业/组织中的所有数据。
2、 数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。
3、 数据湖中的数据是原始数据,是业务数据的完整副本。数据保持了他们在业务系统中原来的样子。
4、 数据湖需要具备完善的数据管理能力,可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。
5、 数据湖需要具备多样化的分析能力,包括但不限于批处理、流式计算、交互式分析以及机器学习;同时,还需要提供一定的任务调度和管理能力。
6、 数据湖需要具备完善的数据生命周期管理能力。不光需要存储原始数据,还需要能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,能帮助用户完整详细追溯任意一条数据的产生过程。
7、 数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求。
8、 对于大数据的支持,包括超大规模存储以及可扩展的大规模数据处理能力。
数据仓库与数据湖有什么区别与联系什么是数据中台数据中台不是一个产品,与业务强相关。通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成资产,进而为业务部门提供高效服务
数据仓库与数据中台的区别与联系,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com