递归最小二乘法原理(机器学习之最小二乘法)

最小二乘法
  • 最小二乘法(即最小平方和)是一种数学优化技术。可以通过它计算最小化误差的平方和寻找数据的最佳函数匹配。

  • 利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

  • 通常一元线性回归和多元线性回归都用最小二乘法求得未知参数,比如一元线性回归方程的斜率和截距,多元线性回归的多个参数和常量。

为什么使用残差平方和而不用残差和?
  • 用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。

  • 用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。

  • 最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。

  • 例如一元线性回归方程:y=a bx

递归最小二乘法原理(机器学习之最小二乘法)(1)

  • n个离差构成的总离差越小越好,只有如此才能使直线最贴近已知点。换句话说,求回归直线方程的过程其实就是求离差最小值的过程,也就是求最优参数的过程,机器学习训练模型也是求最优参数的过程,训练线性回归就是求最优参数。

  • 一个很自然的想法是把各个离差加起来作为总离差。可是,由于离差有正有负,直接相加会互相抵消,就无法反映这些数据的贴近程度,即这个总离差不能用n个离差之和来表示,见下图:

  • 递归最小二乘法原理(机器学习之最小二乘法)(2)

    离差

    • 所以应该用离差平方和表示,即:

    递归最小二乘法原理(机器学习之最小二乘法)(3)

    离差平方和公式

    • 用最小二乘法求回归直线方程中的a、b的公式如下:

    递归最小二乘法原理(机器学习之最小二乘法)(4)

    离差平方和最小时b和a的值

    推导过程如下:
    • 变形公式一:

    递归最小二乘法原理(机器学习之最小二乘法)(5)

    • 变形公式二:

    递归最小二乘法原理(机器学习之最小二乘法)(6)

    • 变形后,推导最小二乘法求回归直线方程的公式:

    递归最小二乘法原理(机器学习之最小二乘法)(7)

    递归最小二乘法原理(机器学习之最小二乘法)(8)

    到此,公式推导完成,从最后公式可以看出后两项

    递归最小二乘法原理(机器学习之最小二乘法)(9)

    与a、b无关,属于常数项

    与a、b无关,属于常数项,所以要想让最小二乘法的平方差最小,只需要让

    递归最小二乘法原理(机器学习之最小二乘法)(10)

    只需让前面的项为0

    这样可以得到误差平方和最小时b(斜率)和a截距的值:

    递归最小二乘法原理(机器学习之最小二乘法)(11)

    ,

    免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

      分享
      投诉
      首页