Driven to discover
  • 目录
  • 简介
  • 数学基础
    • 数学基础
      • 线性代数
      • 概率统计
        • 概率基础
        • 连续概率
        • 概率分布
        • 大数与中心极限
      • 时间序列
      • 信息理论
      • 参数估计
      • 优化降梯
        • 极大、极小和鞍点
        • 泰勒及Jacobian、Hessian
        • 连续可微
          • 无约束优化
          • 有约束优化
        • 非连续可微
      • 备查附录
  • 数据挖掘
    • 数据挖掘
      • 数据预分析
      • 数据预处理
        • 数据采样
        • 数据降维
        • 特征选择
      • 模式挖掘
        • 频繁项集
        • 多样项集
        • 基于约束的频繁项集
        • 高维及庞大项集
        • 序列模式
        • 图模式
      • 聚类分析
        • 划分聚类
        • 层次聚类
        • 密度/网格聚类
      • 文本挖掘
        • 短语挖掘与主题模型
        • 实体识别与类型标记
  • 机器学习
    • 机器学习
      • 模型评估与选择
      • 线性模型
      • 决策树模型
      • 支持向量机
      • 贝叶斯分类器
      • 集成学习
        • Bagging
        • Boosting
          • AdaBoost
          • GBDT
          • XGBoost
          • LightGBM
        • 结合策略
      • 概率图模型
        • 贝叶斯网络
        • 隐马尔可夫
        • 条件随机场
  • 网络图模型
    • 网络图模型
      • 大规模图处理
        • 社区检测与搜索
        • 中心度分析
        • 网络形成模型
        • 异构信息网络
      • 网络映射
        • 结构维持的网络映射
        • 性质维持的网络映射
        • 动态网络映射
      • Graph Neural Network
  • 深度学习
    • 深度学习
      • 深度前馈网络
        • 非线性的学习
        • 基于梯度的学习
        • 激活函数
        • 架构设计
        • 前向传播
        • 反向传播
      • 深度学习正则化
        • 参数范数惩罚
        • 作为约束的范数惩罚
        • 正则化和欠约束问题
        • 数据集增强
        • 噪声鲁棒性
        • 半监督学习
        • 多任务学习
        • 提前终止
        • 参数绑定和共享
        • 稀疏表示
        • Bagging和其他集成方法
        • Dropout
        • 对抗训练
        • 切面距离、正切传播和流形正切分类器
      • 深度学习优化
        • 学习和纯优化异同
        • 神经网络优化中的挑战
        • 优化算法
        • 参数初始化策略
        • 优化策略和元算法
      • 卷积网络
        • 卷积运算
        • 卷积动机
        • 池化
      • 循环和递归网络
        • 展开计算图
        • 循环神经网络
        • 长短期记忆
        • 注意力机制
      • 生成对抗网络
      • 多任务学习
      • 技术分析
        • Attention
        • Normalization
  • 增强学习
    • 增强学习
      • 增强学习的数学表达形式
      • 求解增强学习问题
        • 已知环境模型的问题
        • 未知环境模型的问题
  • 计算机视觉
    • 计算机视觉
      • 图像分类
        • LeNet-5
        • AlexNet
        • VGGNet
        • GoogLeNet
        • ResNet
        • DenseNet
      • 目标检测
        • 相关研究
          • 选择性搜索
          • OverFeat
        • 基于区域提名的方法
          • R-CNN
          • SPP-net
          • Fast R-CNN
          • Faster R-CNN
          • R-FCN
        • 端到端的方法
          • YOLO
          • SSD
      • 语义分割
        • 全卷积网络
          • FCN
          • DeconvNet
          • SegNet
          • DilatedConvNet
        • CRF/MRF的使用
          • DeepLab
          • CRFasRNN
          • DPN
        • 实例分割
          • Mask R-CNN
      • 图像检索的深度哈希编码
        • 传统哈希编码方法
        • CNNH
        • DSH
      • 光学字符识别
        • CTC解码
          • 前向后向
          • 目标函数
          • 基本原理
      • 人脸识别
      • 三维重建
  • 自然语言处理
    • 自然语言处理
      • 中文分词技术
      • 词性标注
        • 传统词性标注模型
        • 基于神经网络的词性标注模型
        • 基于Bi-LSTM的词性标注模型
      • 命名实体识别
      • 关键词提取
        • 词频与排序
        • 主题模型
      • 句法分析
        • 基于PCFG的句法分析
        • 基于最大间隔马尔可夫网络的句法分析
        • 基于条件随机场的句法分析
        • 基于移进-归约的句法分析
      • 文本向量化
        • Continuous Bag-of-Word
        • Skip-Gram
        • word2vec(Hierarchical Softmax与Negative Sampling)
        • GloVe
        • fastText
        • Bert
      • 情感分析
        • 文档维度情感分析
        • 句子维度情感分析
        • 方面维度情感分析
        • 其他情感分析任务
      • 机器翻译
        • 神经网络机器翻译基本模型
        • 基于Attention的神经网络机器翻译
        • 基于卷积的机器翻译
  • 搜索推荐广告
    • 搜索推荐广告
      • 搜索
        • 召回
        • 排序
          • 传统匹配模型
          • 深度学习匹配模型
            • Representation Learning
              • DNN-based
              • CNN-based
              • RNN-based
            • Matching Function Learning
              • Matching with word-level learning methods
              • Matching with attention model
            • Matching function learning&Representation learning
            • Query-Doc Relevance matching
              • Based on global distribution of matching strengths
              • Based on local context of matched terms
        • 重排
      • 推荐
        • 召回
        • 排序
          • 传统匹配模型
            • 协同过滤
            • 基于特征
          • 深度学习匹配模型
            • Representation learning
              • 协同过滤
              • 基于特征
            • Matching function learning
              • 协同过滤
              • 基于特征
        • 重排
      • 广告
        • 行业知识
        • 核心技术
          • 发展趋势
          • CTR/CVR
            • 浅层模型
            • 深度模型
          • 智能定向
          • 技术难点
        • 相关技术
  • 计算机基础
    • 计算机基础
      • 数据结构
        • 排序算法
      • 操作系统
      • 计算机网络
      • 计算机组成原理
      • python
        • pandas
      • Bash
      • Spark
      • SQL
      • Excel
  • 经验总结
    • 经验总结
      • 广告应用
        • 人群定向
        • 召回通路
      • 时序预测
        • 统计时序
        • 机器学习
        • 深度学习
      • 图谱探索
        • 标签传播
        • 图谱&网络
      • 策略评估
        • 激励策略
        • 均衡策略
Powered by GitBook
On this page
  • 正则化
  • 特征影响程度筛选
  • 特征离散程度影响
  • 正则化
  • 函数解稀疏性影响
  • 特征影响程度选择
  • 与 区别
  1. 深度学习
  2. 深度学习
  3. 深度学习正则化

参数范数惩罚

许多正则化方法通过对目标函数 JJJ 添加一个参数范数惩罚 Ω(θ)\Omega(\theta)Ω(θ),限制模型的学习能力。我们将正则化后的目标函数记为 J~\tilde{J}J~ :

J~(θ;X,y)=J(θ;X,y)+αΩ(θ)\tilde{J}(\theta;X,y)=J(\theta;X,y)+\alpha\Omega(\theta)J~(θ;X,y)=J(θ;X,y)+αΩ(θ)

其中 α∈[0,∞)\alpha\in[0,\infty)α∈[0,∞) 是权衡范数惩罚项 Ω\OmegaΩ 和标准目标函数 J(X;θ)J(X;\theta)J(X;θ) 相对贡献的超参数。将 α\alphaα 设为 000 表示没有正则化。 α\alphaα 越大,对应正则化惩罚越大。

L2L^2L2 正则化

这个正则化策略通过向目标函数添加一个正则项 Ω(θ)=12∣∣w∣∣22\Omega(\theta)=\frac{1}{2}||w||^2_2Ω(θ)=21​∣∣w∣∣22​ ,使权重更加接近原点。在其他学术圈, L2L^2L2 也被称为岭回归或Tikhonov正则。DNN的 L2L^2L2 正则化通常的做法是只针对与线性系数矩阵 www ,而不针对偏倚系数 bbb 。我们很容易可以写出DNN的 L2L^2L2 正则化的损失函数:

J~(w;X,y)=J(w;X,y)+α2∣∣w∣∣22=J(w;X,y)+α2wTw\tilde{J}(w;X,y)=J(w;X,y)+\frac{\alpha}{2}||w||^2_2=J(w;X,y)+\frac{\alpha}{2}w^TwJ~(w;X,y)=J(w;X,y)+2α​∣∣w∣∣22​=J(w;X,y)+2α​wTw

与之对应的梯度为

∇wJ~(w;X,y)=∇wJ(w;X,y)+αw\nabla_w\tilde{J}(w;X,y)=\nabla _wJ(w;X,y)+\alpha w∇w​J~(w;X,y)=∇w​J(w;X,y)+αw

使用单步梯度下降更新权重,即执行以下更新

w←w−ϵ(αw+∇wJ(w;X,y))w\gets w-\epsilon(\alpha w+\nabla_wJ(w;X,y))w←w−ϵ(αw+∇w​J(w;X,y))

=w←(1−ϵα)w−ϵ∇wJ(w;X,y)= w\gets (1-\epsilon \alpha)w-\epsilon\nabla_wJ(w;X,y)=w←(1−ϵα)w−ϵ∇w​J(w;X,y)

通过上式我们可以看出,加入权重衰减后会引起学习规则的修改。即在每步执行通常的梯度更新之前先收缩权重向量( (1−ϵα)w(1-\epsilon \alpha)w(1−ϵα)w 将权重向量乘以一个常数因子)。 由于 ϵ\epsilonϵ 和 α\alphaα 都是大于 000 的数,因此相对于不加正则化的模型而言,正则化之后的模型权重在每步更新之后的值都要更小。

特征影响程度筛选

假设 JJJ 是一个二次优化问题(比如采用平方损失函数)时,模型参数可以进一步表示为 w‾=λiλi+αwi\overline{w}=\frac{\lambda_i}{\lambda_i+\alpha}w_iw=λi​+αλi​​wi​,即相当于在原来的参数上添加了一个控制因子,其中 λ\lambdaλ 是参数Hessian矩阵的特征值。由此可见

  • 当 λi≫α\lambda_i\gg \alphaλi​≫α 时,惩罚因子作用比较小。

  • 当 λi≪α\lambda_i\ll \alphaλi​≪α 时,对应的参数会缩减至 000 。

如上图,实线椭圆表没有正则化目标的等值线。虚线圆圈表示 L2L^2L2 正则化项的等值线。在 w~\tilde{w}w~ 点,这两个竞争目标达到平衡。横轴w1w_1w1​表示特征1的权重,纵轴w2w_2w2​表示特征2的权重。

可以看到虚线圆圈很扁,所以当 w1w_1w1​ 变化很大时才能进到实线圆圈的内圈,而 w2w_2w2​ 变化一点就可以进到实线圆圈的内圈。(方便理解可以看纵轴往右平移很大一块才能碰到内一个实线圆圈;假设横轴在实线最外面圈正下方中点,向上平移一点就碰到内一个实线圆圈。或者是想象 w∗w^*w∗ 带着实线圆圈水平或直移动)从一个实圈到另一个实圈,相当于目标函数值变化。

只有在显著减小目标函数方向上的参数会保留的相对完好。在无助于目标函数减小的方向上改变参数不会显著增加梯度,这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。沿横轴变化时,目标函数变化不大,所以正则化项对该轴具有强烈的影响,正则化项将 w1w_1w1​ 拉向零。而目标函数对沿着纵轴的移动非常敏感,对应的特征值较大,表示高曲率,因此,正则化对 w2w_2w2​ 位置影响相对较小。

特征离散程度影响

目前为止,我们讨论了权重衰减对优化一个抽象通用的二次代价函数的影响。这些影响具体是怎么和机器学习关联的呢?我们可以研究线性回归,它的真实代价函数是二次的,因此我们可以使用相同的方法分析。再次应用分析,我们会在这种情况下得到相同的结果,但这次我们使用训练数据的术语表述。线性回归的代价函数时平方误差之和:

(Xw−y)T(Xw−y)(Xw-y)^T(Xw-y)(Xw−y)T(Xw−y)

我们添加 L2L^2L2 正则项后,目标函数变为

(Xw−y)T(Xw−y)+12αwTw(Xw-y)^T(Xw-y)+\frac{1}{2}\alpha w^Tw(Xw−y)T(Xw−y)+21​αwTw

这将方程的解从

w=(XTX)−1XTyw = (X^TX)^{-1}X^Tyw=(XTX)−1XTy

变成

w=(XTX+αI)−1XTyw = (X^TX+\alpha I)^{-1}X^Tyw=(XTX+αI)−1XTy

不加正则项时的解中的矩阵 XTXX^TXXTX 与协方差矩阵 1mXTX\frac{1}{m}X^TXm1​XTX 成正比。 L2L^2L2 正则项将这个矩阵替换为上式中的 XTX+αIX^TX+\alpha IXTX+αI,这个新矩阵与原来的是一样的,不同的仅仅是在对角加了 α\alphaα 。这个矩阵的对角项对应每个输入特征的方差。我们可以看到,L2L^2L2 正则化能让学习算法“感知”到具有较高方差的输入 xxx ,因此与输出目标的协方差较小(相对增加方差)的特征的权重将会收缩。即更离散的特征所占权重将会变小。

L1L^1L1 正则化

对模型参数 www 的 L1L^1L1 正则化被定义为

Ω(θ)=∣∣w∣∣1=∑i∣wi∣\Omega(\theta) = ||w||_1=\sum\limits_i|w_i|Ω(θ)=∣∣w∣∣1​=i∑​∣wi​∣

即各个参数的绝对值之和。正则化的目标函数 J~(w;X,y)\tilde{J}(w;X,y)J~(w;X,y) 如下所示

J~(w;X,y)=J(w;X,y)+α∣∣w∣∣1\tilde{J}(w;X,y)=J(w;X,y)+\alpha||w||_1J~(w;X,y)=J(w;X,y)+α∣∣w∣∣1​

对应的梯度(实际上是次梯度):

∇wJ~(w;X,y)=∇wJ(w;X,y)+α sign(w)\nabla_w\tilde{J}(w;X,y)=\nabla_w J(w;X,y)+\alpha \ sign(w)∇w​J~(w;X,y)=∇w​J(w;X,y)+α sign(w)

其中 sign(w)sign(w)sign(w) 只是简单地取 www 各个元素的正负号。

我们可以看到正则化对梯度的影响不再是线性地缩放每个 wiw_iwi​ ,而是添加了一项与 sign(wi)sign(w_i)sign(wi​) 同号的常数。使用这种形式的梯度之后,我们不一定能到的 J(X,y;w)J(X,y;w)J(X,y;w) 二次近似的直接算数解(L2L^2L2正则化可以)

函数解稀疏性影响

相比 L2L^2L2 正则化, L1L^1L1 正则化会产生更稀疏的解。此处稀疏性指的是最优值中的一些参数为 000 。如上图所示,正则项等值线与没有正则化目标的等值线在 L1L^1L1 时更容易在轴上有交点(这两个竞争目标达到平衡),即有特征的系数为 000 (上图中是 w1=0w_1=0w1​=0 )。

特征影响程度选择

由 L1L^1L1 正则化导出的稀疏性质已经被广泛地应用于特征选择机制。特征选择从可用的特征子集选择出有意义的特征,化简机器学习问题。著名的LASSO模型将 L1L^1L1 惩罚和线性模型结合,并使用最小二乘代价函数。 L1L^1L1 惩罚使部分自己的权重为零,表明相应的特征可以被安全的忽略。

L2L^2L2 与 L1L^1L1 区别

L1L^1L1 相对于L2L^2L2 能够产生更加稀疏的模型,即当 L1L^1L1 正则在参数 www 比较小的情况下,能够直接缩减至0。因此可以起到特征选择的作用,该技术也称之为 LASSO。

如果从概率角度进行分析,很多范数约束相当于对参数添加先验分布,其中L2L^2L2 范数相当于参数服从高斯先验分布; L1L^1L1 范数相当于拉普拉斯分布。

Previous深度学习正则化Next作为约束的范数惩罚

Last updated 6 years ago