机器学习数据归一化方法(机器学习数据归一化方法)

归一化是一种简化计算的方式,即将所有属性以相同的测量单位表示,并使用通用的刻度或范围。归一化试图赋予所有数据属性同等的权重,使属性之间的比较与聚合更容易,数据的收敛条件更好,不会出现属性值凌驾于其他属性值之上的情况。另一方面,归一化有助于防止使用属性之间距离度量的机器学习算法产生扭曲的结果,并提高了数据分析的效率。

输入层的数据归一化方法

机器学习应注意输入数据属性的统计分布,且检查属性统计的变化

Min-Max线性函数归一化

优点:对原数据做处理之后并不改变数据分布。

缺点:过度依赖最大最小值,当有异常数据点出现时会对结果产生较大影响。

Z-Score

将原数据处理成符合正态分布的数据

优点:受离群值影响较小,适合最大值、最小值未知的情况。

缺点:改变数据的分布。

Sigmoid

优点:适合用于反映二分类结果的概率,对于计算反向传播较为简单。

缺点:可能存在梯度消失问题。

小数定标

通过移动小数点直观地对数据进行处理,将原始数据的绝对值映射到始终小于1 的范围内。

优点:适用范围广,受到数据分布影响小,更加实用。

缺点:过度依赖最大最小值,容易受异常点影响。

Rank Gauss

优点:数据变为高斯分布,更为直观。

缺点:只保留了数据的排序信息。

反余切函数

优点:函数图像平稳,对于计算反向传播较为简单。

缺点:仅当数据都大于等于0时,映射的区间为[0,1],并非所有数据标准化的结果都映射到[0,1]区间上。

tanh

优点:训练容易。

缺点:全部激活,使得神经网络较重(heavy)。

隐藏层的数据归一化方法

Batch Normalization

优点:提升训练速度,尤其在计算机视觉任务上表现较好。

缺点:过度依赖批量大小(batchsize)。

Layer Normalization

优点:批量大小较小时,效果好;适用于自然语言处理任务。

缺点:批量大小较大时,效果不如BN。

Instance Normalization

优点:不受批量大小和图片通道的影响。

缺点:丢失通道之间的相关性。

Group Normalization

优点:不依赖批量大小。

缺点:当批量大小较大时,性能不如BN。

Switchable Normalization

优点:集BN、LN、GN优点于一身。

缺点:训练复杂。

Filter Response Normalization

优点:不受批量大小的影响。

流数据的归一化法

大数据流具有不断变化的性质,有严格的内存和时间限制以及学习训练前无法获得全部数据的特点,目前为止,对于数据流的归一化算法研究较少。预处理数据参数保持固定或手动调整可能导致预测结果不佳。通常采用滑动窗口技术对流数据进行预处理参数调整,窗口的选择对结果至关重要。

机器学习数据归一化方法(机器学习数据归一化方法)(1)

机器学习数据归一化方法(机器学习数据归一化方法)(2)

机器学习数据归一化方法(机器学习数据归一化方法)(3)

机器学习数据归一化方法(机器学习数据归一化方法)(4)

知乎咨询:哥廷根数学学派

算法代码:https://mbd.pub/o/GeBENHAGEN

擅长现代信号处理(改进小波分析系列,改进变分模态分解,改进经验小波变换,改进辛几何模态分解等等),改进机器学习,改进深度学习,机械故障诊断,改进时间序列分析(金融信号,心电信号,振动信号等)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页