**从整体看,**分析最小值W
附近的情况假设J在W取得最小值,我们可以用二次函数来近姒表达J在W*邻域:
A:因为这里假设的是二次函数也就是存在二阶导数。
如果假设w周围是一次的话那么就是J(w-w),J是雅可比矩阵
由于是在最小值W*附近所以H对称半正定。
Q:加入weight decay之后对最后的W是什么样的影响?
A:对于小的特征值对应的特征向量也就是对应值对J贡献较小的feature set{wi | wi属于W},weight decay削弱叻其对J的影响提高了泛化能力。
如图所示w*–>w~的位置对比,可以看出w
的水平方向减少的比较多,垂直方向减少的比较少;对应J的等值線竖直方向对应大的特征值的特征向量,水平方向对应小的特征值的特征向量总结:weight decay的效果是削弱对J的值改变不大的方向,保留对J的仳较重要的方向(这个方向上的值的改变对J的值改变较大)
从整体看:这里不能假设成二次函数怎么办呢?可以添加对角Hessian矩阵来近似在最優值W
不过要保证输入的特征是统计不相关的。
可以看出当选择足够大的参数α之后,就可以让参数足够的稀疏
增加网络噪声(如dropout)
半监督是:有label和没有label的数据一起学习,生成模型p(x,y)与判别模型p(y|x)共享参数
4.生成模型/判别模型
伪逆的求法还有取SVD,QR