非线性的学习

对于非线性问题,我们必须用非线性函数来描述特征。大多是神经网络通过仿射变换之后紧跟着一个被称为激活函数的固定非线性函数来实现这个目标,其中仿射变换由学得的参数控制。例如,

定义 h=g(WTx+c)h=g(W^Tx+c) ,其中 WW 是线性变换的权重矩阵, cc 是偏置。此前,为了描述线性回归模型,我们使用权重向量和一个标量的偏置参数来描述从输入向量到输出标量的仿射变换。现在,因为描述的是向量 xx 到向量 hh 的放射变换,所以我们需要一整个向量的偏置参数。激活函数 gg 通常选择对每个元素分别起作用的函数,有 hi=g(xTW:,i+ci)h_i=g(x^TW_{:,i}+c_i)

在现代神经网络中,默认的推荐使用由激活函数 g(z)=max{0,z}g(z) = \max\{0,z\} 定义的整流线性单元或者称为ReLU

f(x;W,c,w,b)=wTmax{0,WTx+c}+bf(x;W,c,w,b)=w^T\max\{0,W^Tx+c\}+b

Last updated