梯度下降
梯度下降算法梯度函数上某一点的梯度是 向量,就是函数变化增加最快的地方。具体来说,对于函数f(x,y),在点(x0,y0)沿着梯度向量的方向 : (df/dx0,df/dy0)的转置. 可以最快速度到达最大值.梯度下降算法损失函数: J(w)w的梯度将是损失函数上升最快的方向,最小化loss ,反向即可 J(w_old) ---->J(w_old- k * ▽w_old的梯度)---->J(w_new)方法 : 主要区别是每一次更新样本参数使用的样本个数是不同的批量梯度下降...