如何正确利用数据挖掘(数据挖掘:数据仓库)

进入21世纪以来,随着数据库、计算机网络和人工智能等技术的广泛应用,它已成为当今信息管理技术彼此间相互关联。

一、从数据库到数据仓库

数据库与数据仓库只有一字之差,似乎是一样的概念,但实际则不然。

计算机系统中存在着两类不同的数据处理工作:一类是操作型处理,也称为联机事务处理(Online Transaction,OLTP),它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询和修改,用户较为关心操作的响应时间、数据的安全、完整性和并发支持的用户数等问题,传统的数据库系统作为数据管理的主要手段,主要用于操作性处理;.

如何正确利用数据挖掘(数据挖掘:数据仓库)(1)

另一类是分析型处理,也称为联机分析处理。

一般针对某些主题的历史数据进行分析,支持管理决策,它通常是对海量的历史数据查询和分析,如金融风险预测预警系统、证券股市违规分析系统等。这些系统要访问的数据量非常大,查询和分析的操作十分复杂。

(1) 面向主题

数据仓库中的数据是按照各种主题来组织的。

(2) 集成性

数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库冗余和不一致,且与不同的逻辑相关。

(3) 数据的非易失性

数据的非易失性主要是针对应用面言的,数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据进入数据仓库以后,一般情况下都被较长时间的保留。

(4) 数据的时变性

一般地,数据仓库具有三个常用的重要概念,既粒度、分割和维。

(1)粒度

粒度问题是设计数据仓库的一个重要的方面。粒度是指数据单位中保存数据的细化或综合程序的级别,细化程序越高,粒度级就越小,相反地,细化程度越低,粒度级就越大。

(2)分割

分割是将数据分散到各自的物理单元中,以便能分别处理,以提高数据处理的效率。数据分割后的单元称为切片。

(3)维

维是人们观察数据在特定角度,是考虑问题时的一类属性。

如何正确利用数据挖掘(数据挖掘:数据仓库)(2)

(二)数据挖掘技术

数据挖 (Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现并提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的一种技术。它又被称为数据库中的知识发现(Knowledge Discovery in DataBase,KDD),其与数据库、数理统计、机器学习、模式识别、模糊数学等诸多技术相关。

(1) 概念描述

通过数据挖掘技术,可以归纳总结出数据的某种特征。

(2)关联分析

在数据挖掘技术中,基于关联规则的挖掘是应用较广的一种方法。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。

(3)分类和预测

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,

(4)聚类

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。

(5)孤立点检测

孤立点是指数据中与整体表现行为不一致的数据集合。

(6)趋势和演变分析

通过数据挖 技术,可以描述行为随着时间变化的对象所遵照循的规律或趋势。

如何正确利用数据挖掘(数据挖掘:数据仓库)(3)

以上都是抽象的,目前都普遍被应用网贷、刷短视频、刷收益提取用户喜好、个性化及地理位置,支付通道。

未来个人隐私运动轨迹,及个人喜好,人物画像,信用情况,太多数据汇聚到一些知名企业公司的数据库,进行大量分析及人物模型分析。

未来个人隐私不复存在,需要法律进行更严格干预或规范。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页