稀疏表示
深度学习可以看着时一种表示学习(representation learning),比如卷积神经网络可以学习图像的不同层次的特征表示,word2vec学习词的Distributed representation,其共同特点是用隐层权重作为表示。
L1 惩罚可以诱导稀疏的参数,即许多参数为零(或接近于零)。
表示的范数惩罚正则化是通过向损失函数 J 添加对表示的范数惩罚来实现的。 我们将这个惩罚记作 Ω(h) 。 和以前一样,我们将正则化后的损失函数记作 J~ :
J~(θ;X,y)=J(θ;X,y)+αΩ(h)
其中 α∈[0,∞] 权衡范数惩罚项的相对贡献,越大的 α 对应越多的正则化。
通过上述方法,含有隐藏单元的模型在本质上都能变得稀疏。
Last updated