词性标注
词性标注(Part-of-Speech Tagging,POS Tagging)是在给指定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。比如“这儿/代词 是/动词 个/量词 非常/副词 漂亮/形容词 的/结构助词 公园/名词”。词性标注的困难之处在于,同一个词在不同的句子中可能是不同的词性,例如“I have a book.”和“I book a room”,在第一句中“book”的词性标签是名词(NN),而在第二个句子中“book”的词性标签是非第三人称单数动词(VBP)。
词性标注最简单的方法就是从语料库中统计每个词所对应的高频词性,将其作为默认词性,但这样显然还有提升空间。目前较主流的方法是如同分词一样,将句子的词性标注作为一个序列标注问题来解决,如隐含马尔可夫模型、条件随机场模型等皆可在词性标注任务中使用。
词性标注规范
中文领域标注标准较为主流的主要为北大的词性标注集和滨州词性标注集两大类。下图北大词性标注集。
Jieba库中词性标注
HMM在2.1)步骤中,将基于字标注的分词方法与词性标注结合,使用复合标注集。比如对于名词“人民”,它的词性标注是n,而分词的标注序列是BE,于是“人”的标注就是B_n,“民”的标注是E_n
Last updated