条件随机场

条件随机场(Conditional Random Field, CRF)是一种判别式无向图模型。生成式模型是直接对联合分布进行建模，而判别式模型则是对条件分布进行建模。条件随机场是给定随机变量 $X$ 条件下，随机变量 $Y$ 的马尔可夫随机场。

设 $X$ 与 $Y$ 是随机变量， $P(Y|X)$ 是在给 $X$ 的条件下 $Y$ 的条件概率分布。若随机变量 $Y$ 构成一个无向图 $G = (V,E)$ 表示的马尔可夫随机场，即

$P(Y_v|X,Y_w,w\neq v) = P(Y_v|X,Y_w,w\sim v)$

对任意结点 $v$ 成立，则称条件概率分布 $P(Y|X)$ 为条件随机场。式中 $w\sim v$ 表示在图 $G=(V,E)$ 中与结点 $v$ 有边连接的所有结点 $w$ ， $w\neq v$ 表示结点 $v$ 以外所有结点， $Y_v,Y_u,Y_w$ 为结点 $v,u,w$ 对应的随机变量。

链式条件随机场

这里主要介绍定义在线性链上的特殊的条件随机场，称为线性链条件随机场(Linear Chain Conditional Random Field)。线性链条件随机场可以用于标注问题。这时，在条件随机概率模型 $P(Y|X)$ 中， $Y$ 是输出变量，表示标记序列， $X$ 是输入变量，表示需要标注的观测序列。也把标记序列称为状态序列。学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 $\hat{P}(Y|X)$ ；预测时，对于给定的输入序列 $x$ ，求出条件概率 $\hat{P}(y|x)$ 最大的输出序列 $\hat{y}$ 。

设 $X=(X_1,X_2,\dots,X_n)$ ， $Y = (Y_1,Y_2,\dots,Y_n)$ 均为线性链表示的随机变量序列，若在给定随机变量序列 $X$ 的条件下，随机变量序列 $Y$ 的条件概率分布 $P(Y|X)$ 构成条件随机场，即满足马尔可夫性

$P(Y_i|X,Y_1,\dots,Y_{i-1},Y_{i+1},\dots,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$

$i=1,2,\dots,n(在i=1和n时只考虑单边)$

则称 $P(Y|X)$ 为线性链条件随机场。在标注问题中， $X$ 表示输入观测序列， $Y$ 表示对应的输出标记序列或状态序列。

条件随机场运行过程

请看第一张概率图模型构架图，CRF上面是马尔科夫随机场（马尔科夫网络），而条件随机场是在给定的随机变量（具体，对应观测序列 $o_{1}, \cdots, o_{i}$ ）条件下，随机变量（具体，对应隐状态序列 $i_{1}, \cdots, i_{i}$ 的马尔科夫随机场。广义的CRF的定义是：满足 $P(Y_{v}|X,Y_{w},w \neq v) = P(Y_{v}|X,Y_{w},w \sim v)$ 的马尔科夫随机场叫做条件随机场

不过一般说CRF为序列建模，就专指CRF线性链（linear chain CRF）：

概率无向图的联合概率分布可以在因子分解下表示为：

而在线性链CRF示意图中，每一个（ $I_{i} \sim O_{i}$ ）对为一个最大团,即在上式中 c = i 。并且线性链CRF满足 $P(I_{i}|O,I_{1},\cdots, I_{n}) = P(I_{i}|O,I_{i-1},I_{i+1})$ 。

所以CRF的建模公式如下：

我要敲黑板了，这个公式是非常非常关键的，注意递推过程啊，我是怎么从跳到 $e^{\sum}$ 的

不过还是要多啰嗦一句，想要理解CRF，必须判别式模型的概念要深入你心。正因为是判别模型，所以不废话，我上来就直接为了确定边界而去建模，因为我创造出来就是为了这个分边界的目的的。比如说序列求概率（分类）问题，我直接考虑找出函数分类边界。所以才为什么会有这个公式。所以再看到这个公式也别懵逼了，he was born for discriminating the given data from different classes. 就这样。不过待会还会具体介绍特征函数部分的东西。除了建模总公式，关键的CRF重点概念在MEMM中已强调过：判别式模型、特征函数。

特征函数

上面给出了CRF的建模公式：

下标i表示我当前所在的节点（token）位置。
下标k表示我这是第几个特征函数，并且每个特征函数都附属一个权重 $\lambda_{k}$ ，也就是这么回事，每个团里面，我将为 $token_{i}$ 构造M个特征，每个特征执行一定的限定作用，然后建模时我再为每个特征函数加权求和。
是用来归一化的，为什么？想想LR以及softmax为何有归一化呢，一样的嘛，形成概率值。
再来个重要的理解。这个表示什么？具体地，表示了在给定的一条观测序列 $O=(o_{1},\cdots, o_{i})$ 条件下，我用CRF所求出来的隐状态序列 $I=(i_{1},\cdots, i_{i})$ 的概率，注意，这里的I是一条序列，有多个元素（一组随机变量），而至于观测序列 $O=(o_{1},\cdots, o_{i})$ ，它可以是一整个训练语料的所有的观测序列；也可以是在inference阶段的一句sample，比如说对于序列标注问题，我对一条sample进行预测，可能能得到 $P_{j}(I | O)（j=1,…,J）$ J条隐状态I，但我肯定最终选的是最优概率的那条（by viterbi）。这一点希望你能理解。