工业大数据的特点工业大数据的数据来源分级模型

初来乍到 2023-04-17 16:14:15

工业大数据是工业互联网的核心。无论是5G、机理模型，还是工业APP，都只是数据的传输和应用。

高质量的数据可以从时效、粒度、采样频率、数据质量上去判断，其中时效越短越好（实时最佳），粒度越小越好，采样频率越高越好，数据中异常值、缺失值、离群值越少越好。至于细粒度、高采样频率带来的数据处理量、存储容量问题，是有了数据如何用的问题，和没有数据是两码事。

目前，大数据行业有个误区，认为数据来源不成问题，企业数据很多，只是基于安全问题不开放。只要政府重视、企业愿意，就有大量数据可以去分析、挖掘。实际情况却是企业根本就没有数据，出现这种情况的主要原因是：

一个永磁同步电机，电流变化的周期是100μs，采用频率为10kHZ，假如仅采集速度和转矩，且均为2个字节的整数，则一天的数据量为52,560,000,000，即48.95G。企业是否有必要、有能力采集、存储这么多数据，这些数据又有哪些用途，都是工业大数据开发所需要考虑的现实问题。

那么，企业有哪些数据可供使用？哪些是高质量的数据？应该有一个可供参考的标准。以下是对工业大数据数据来源所做的分级，共分为6级，数据所在分级越高，数据质量越高。

L0：汇总数据

汇总数据一般来自于统计报表。数据只要经过汇总处理，必有维度损失，在这些数据上做分析预测，会丢失很多有价值的信息。比如日报统计数据，必然是将每天24小时数据进行汇总，因此会丢失小时信息，无法进行需按照24小时分段进行的分析，比如班次、白天和晚上、上午和下午等可比较信息被丢弃。

L1：人工录入数据

目前主流的数据录入形式均为人工，通过ERP、MES、SCM、LIMS等软件系统录入数据。RPA（机器人流程自动化）虽然将数据录入自动化，但数据的属性相同。

人工录入数据数据量小、时效低。虽然大公司数据量很大，但是由多人同时录入的。

该级数据是目前BI的主流数据来源。

L2：标识数据、网站点击数据

是物联网的主要数据来源之一，有RFID、条形码、二维码等，一般只能提供时间、位置、标签ID信息，是自动产生的最简单的数据。

网站点击可以等同于刷码，虽然是人工操作，但操作简单，其具体含义与点击链接所在网页及位置有关。

L3：传感器数据

传感器数据是工业互联网数据的主要来源，这里仅列在L3级，原因是传感器采集的数据比较单一，大多数传感器采集周期比较长，还有的传感器部署成本比较高。

L4：工业控制系统数据

工业控制系统包括SCADA、DCS、PLC等，其中包括了传感器的数据，但是还有控制系统的运行参数。这些数据一般都与行业相关。

L4比L3数据多而有价值的原因有多方面，比如PID控制，只有被控值是通过传感器测量的，但控制值需要不断调整，控制值数据也很有价值。

L5：电源电机数据

基于DSP控制的数字电源、逆变器、电机等设备，会产生10kHz变化的数据，这些数据中蕴含中许多与生产、质量、设备有关的细节信息，与行业无关，是工业大数据最基础、最有价值的数据来源。

从以上L0到L5的层次演化来看，主要特征是：（1）数据量越来越大（2）通用性越来越强。用这个模型，可以评估企业在工业互联网方面的水平，也可以指明发展的方向。

模型的另外一个特征是，高层次的数据可以产生低层次的数据，比如电机的运动->零件产量-> 产品产量->入库数据->销售数量–>销售收入。

工业大数据的特点工业大数据的数据来源分级模型(1)

不同数据来源层次的关系

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

工业大数据的特点 工业大数据的数据来源分级模型