大数据基本原理与应用(大数据原理与技术第一章)

大数据是指需要用高效率和创新型的信息技术加以处理,以提高发现洞察能力、决策能力和优化流程能力的信息资产,我来为大家科普一下关于大数据基本原理与应用?以下内容希望对你有帮助!

大数据基本原理与应用(大数据原理与技术第一章)

大数据基本原理与应用

大数据概述

大数据是指需要用高效率和创新型的信息技术加以处理,以提高发现洞察能力、决策能力和优化流程能力的信息资产。

数据的来源分为两类:社交数据(互联网) 和 机器数据(物联网)。

大数据对于企业的价值:精准的市场营销 辅助决策 催生产品和服务 改善产品和流程;企业中最有价值数据主要有客户数据、财务数据和生产数据。

大数据技术的基本流程:数据采集 -> 预处理及导入 -> 数据分析及挖掘

大数据技术

[关键技术] 大数据采集

  • 通过Web、应用、传感器等方式获得各种类型的结构化、半结构化及非结构化数据,难点在于采集量大且数据类型繁多。
  • 网络数据:爬虫 或 API
  • 系统日志:日志收集工具 (如Hadoop的Chukwa、Flume,Facebook的Scribe等)

[关键技术] 大数据预处理技术

  • 抽取:将数据转化为单一或者便于处理的数据结构
  • 清洗:发现并纠正,将数据集中的残缺数据、错误数据和重复数据筛选出来并丢弃
  • 常见工具:DataWrangler、GoogleRefine

[关键技术] 大数据存储及管理技术

  • 难点:量大、类型多、文件大小可能超过单个磁盘容量
  • 常见工具:Google的GFS、Hadoop的HDFS、SUN公司的Lustre

[关键技术] 大数据分析及挖掘技术

  • 定义:利用算法模型对数据进行处理,从而得到有用的信息
  • 常用的分布式计算框架有MapReduce、Storm和Spark等。其中MapReduce适用于复杂的批量离线数据处理;Storm适用于流式数据的实时处理;Spark基于内存计算,具有多个组件,应用范围较广。
  • 数据分析:描述性统计分析、探索性数据分析和验证性数据分析。
  • 数据挖掘:偏差分析、关联分析、聚类分析、分类、回归

[关键技术] 数据可视化

  • 定义:将数据以图形图像形式表示,向用户清楚有效地传达信息的过程。
,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页