Driven to discover
  • 目录
  • 简介
  • 数学基础
    • 数学基础
      • 线性代数
      • 概率统计
        • 概率基础
        • 连续概率
        • 概率分布
        • 大数与中心极限
      • 时间序列
      • 信息理论
      • 参数估计
      • 优化降梯
        • 极大、极小和鞍点
        • 泰勒及Jacobian、Hessian
        • 连续可微
          • 无约束优化
          • 有约束优化
        • 非连续可微
      • 备查附录
  • 数据挖掘
    • 数据挖掘
      • 数据预分析
      • 数据预处理
        • 数据采样
        • 数据降维
        • 特征选择
      • 模式挖掘
        • 频繁项集
        • 多样项集
        • 基于约束的频繁项集
        • 高维及庞大项集
        • 序列模式
        • 图模式
      • 聚类分析
        • 划分聚类
        • 层次聚类
        • 密度/网格聚类
      • 文本挖掘
        • 短语挖掘与主题模型
        • 实体识别与类型标记
  • 机器学习
    • 机器学习
      • 模型评估与选择
      • 线性模型
      • 决策树模型
      • 支持向量机
      • 贝叶斯分类器
      • 集成学习
        • Bagging
        • Boosting
          • AdaBoost
          • GBDT
          • XGBoost
          • LightGBM
        • 结合策略
      • 概率图模型
        • 贝叶斯网络
        • 隐马尔可夫
        • 条件随机场
  • 网络图模型
    • 网络图模型
      • 大规模图处理
        • 社区检测与搜索
        • 中心度分析
        • 网络形成模型
        • 异构信息网络
      • 网络映射
        • 结构维持的网络映射
        • 性质维持的网络映射
        • 动态网络映射
      • Graph Neural Network
  • 深度学习
    • 深度学习
      • 深度前馈网络
        • 非线性的学习
        • 基于梯度的学习
        • 激活函数
        • 架构设计
        • 前向传播
        • 反向传播
      • 深度学习正则化
        • 参数范数惩罚
        • 作为约束的范数惩罚
        • 正则化和欠约束问题
        • 数据集增强
        • 噪声鲁棒性
        • 半监督学习
        • 多任务学习
        • 提前终止
        • 参数绑定和共享
        • 稀疏表示
        • Bagging和其他集成方法
        • Dropout
        • 对抗训练
        • 切面距离、正切传播和流形正切分类器
      • 深度学习优化
        • 学习和纯优化异同
        • 神经网络优化中的挑战
        • 优化算法
        • 参数初始化策略
        • 优化策略和元算法
      • 卷积网络
        • 卷积运算
        • 卷积动机
        • 池化
      • 循环和递归网络
        • 展开计算图
        • 循环神经网络
        • 长短期记忆
        • 注意力机制
      • 生成对抗网络
      • 多任务学习
      • 技术分析
        • Attention
        • Normalization
  • 增强学习
    • 增强学习
      • 增强学习的数学表达形式
      • 求解增强学习问题
        • 已知环境模型的问题
        • 未知环境模型的问题
  • 计算机视觉
    • 计算机视觉
      • 图像分类
        • LeNet-5
        • AlexNet
        • VGGNet
        • GoogLeNet
        • ResNet
        • DenseNet
      • 目标检测
        • 相关研究
          • 选择性搜索
          • OverFeat
        • 基于区域提名的方法
          • R-CNN
          • SPP-net
          • Fast R-CNN
          • Faster R-CNN
          • R-FCN
        • 端到端的方法
          • YOLO
          • SSD
      • 语义分割
        • 全卷积网络
          • FCN
          • DeconvNet
          • SegNet
          • DilatedConvNet
        • CRF/MRF的使用
          • DeepLab
          • CRFasRNN
          • DPN
        • 实例分割
          • Mask R-CNN
      • 图像检索的深度哈希编码
        • 传统哈希编码方法
        • CNNH
        • DSH
      • 光学字符识别
        • CTC解码
          • 前向后向
          • 目标函数
          • 基本原理
      • 人脸识别
      • 三维重建
  • 自然语言处理
    • 自然语言处理
      • 中文分词技术
      • 词性标注
        • 传统词性标注模型
        • 基于神经网络的词性标注模型
        • 基于Bi-LSTM的词性标注模型
      • 命名实体识别
      • 关键词提取
        • 词频与排序
        • 主题模型
      • 句法分析
        • 基于PCFG的句法分析
        • 基于最大间隔马尔可夫网络的句法分析
        • 基于条件随机场的句法分析
        • 基于移进-归约的句法分析
      • 文本向量化
        • Continuous Bag-of-Word
        • Skip-Gram
        • word2vec(Hierarchical Softmax与Negative Sampling)
        • GloVe
        • fastText
        • Bert
      • 情感分析
        • 文档维度情感分析
        • 句子维度情感分析
        • 方面维度情感分析
        • 其他情感分析任务
      • 机器翻译
        • 神经网络机器翻译基本模型
        • 基于Attention的神经网络机器翻译
        • 基于卷积的机器翻译
  • 搜索推荐广告
    • 搜索推荐广告
      • 搜索
        • 召回
        • 排序
          • 传统匹配模型
          • 深度学习匹配模型
            • Representation Learning
              • DNN-based
              • CNN-based
              • RNN-based
            • Matching Function Learning
              • Matching with word-level learning methods
              • Matching with attention model
            • Matching function learning&Representation learning
            • Query-Doc Relevance matching
              • Based on global distribution of matching strengths
              • Based on local context of matched terms
        • 重排
      • 推荐
        • 召回
        • 排序
          • 传统匹配模型
            • 协同过滤
            • 基于特征
          • 深度学习匹配模型
            • Representation learning
              • 协同过滤
              • 基于特征
            • Matching function learning
              • 协同过滤
              • 基于特征
        • 重排
      • 广告
        • 行业知识
        • 核心技术
          • 发展趋势
          • CTR/CVR
            • 浅层模型
            • 深度模型
          • 智能定向
          • 技术难点
        • 相关技术
  • 计算机基础
    • 计算机基础
      • 数据结构
        • 排序算法
      • 操作系统
      • 计算机网络
      • 计算机组成原理
      • python
        • pandas
      • Bash
      • Spark
      • SQL
      • Excel
  • 经验总结
    • 经验总结
      • 广告应用
        • 人群定向
        • 召回通路
      • 时序预测
        • 统计时序
        • 机器学习
        • 深度学习
      • 图谱探索
        • 标签传播
        • 图谱&网络
      • 策略评估
        • 激励策略
        • 均衡策略
Powered by GitBook
On this page
  • 短语质量评价标准
  • 方案1:短语与主题同时推断
  • 方案2:先主题生成后短语构建
  • 方案3:先短语挖掘后主题模型
  • SegPhrase
  • AutoPhrase
  1. 数据挖掘
  2. 数据挖掘
  3. 文本挖掘

短语挖掘与主题模型

短语质量评价标准

Popularity: 更精确的好于较精确的,比如"information retrieval" vs. "cross-language information retrieval"

Concordance: 符合常规说法,比如浓茶一般说"strong tea",遇到"powerful tea"就不太符合了

Informativeness: 含有信息量,比如"this paper"虽然高频出现但没信息量没区分度

Completeness: 要具有完整性,比如"vector machine" vs. "support vector machine"

方案1:短语与主题同时推断

基本思路:Generate bag-of-words -> Generate sequence of tokens

缺点:这种方案复杂度高,运算慢,且易过拟合

Bigram Topic Model[Wallach'06]:概率生成模型,下一词的生成基于前一个词和主题的条件概率

Topic N-Grams(TNG)[Wang, et al.'07]:根据文本顺序生成词语的概率模型,通过连接连续的bigram(通过Bigram Topic Model生成)来创建n-grams

Phrase-Discovering LDA(PDLDA)[Lindsey, et al.'12]:将每个句子视为一个词语的时间序列,PDLDA假定生成参数(主题)周期性变化,基于之前 mmm 个词与当前短语主题生成每个词

方案2:先主题生成后短语构建

基本思路:Post bag-of-words model inference, visualize topics with n-grams,短语构建作为LDA之后步骤

缺点:这个方案中的符记在同一个短语中可能被赋予不同的主题,短语质量依赖于词的主题标签准不准

TurboTopic[Blei&Lafferty'09]

在语料中执行LDA模型来给每个符记赋一个主题标签
将相连的相同主题标签
当全部有意义相连的词合并后终止合并迭代

KERT[Danilevsky, et al.'14]

在每一个主题中运行频繁项集挖掘
基于四个评价标准(Popularity、Discriminativeness、Condordance、Completeness)执行短语排序

方案3:先短语挖掘后主题模型

基本思路:Prior bag-of-words model inference, mine phrases and impose on the bag-of-words model

缺点:主题推断依赖于文档的正确分割

ToPMine[El-Kishky et al.VLDB'15]

执行高频连续频繁项集挖掘来获取候选短语和他们的频数
根据重要性得分,对相邻的unigrams进行凝聚合并(这一步切分每个文档放入"bag-of-phrases")
新形成的词组作为输入传递给PhraseLDA(这是一个扩展LDA,它限制短语中的所有单词,每个单词共享相同的潜在主题)
ClassPhrase: 频繁项挖掘,特征抽取,分类
SegPhrase: 短语切分和短语质量估计
SegPhrase+: 多一轮迭代来加强以挖掘的短语质量

ClassPhrase:

1、频繁项集挖掘,挖掘频繁项作为候选短语集(这一步可保证生成短语在输入语料库的Popularity)

2.1、特征抽取,检查候选集里每个候选短语的置信度,看看他们一同出现的概率是不是比纯随机要高(这一步保证Concordance),可采用Pointwise mutual information或者Pointwise KL divergence来判断

⟨ul,ur⟩=argminul⨁ur=vlog⁡p(v)p(ul)p(ur)\langle u_l,u_r\rangle = arg \mathop{min}\limits_{u_l\bigoplus u_r=v} \log\frac{p(v)}{p(u_l)p(u_r)}⟨ul​,ur​⟩=argul​⨁ur​=vmin​logp(ul​)p(ur​)p(v)​

PMI(ul,ur)=log⁡p(v)p(ul)p(ur)            PKL(v∣∣⟨ul,ur⟩)=p(v)log⁡p(v)p(ul)p(ur) PMI(u_l,u_r)=\log\frac{p(v)}{p(u_l)p(u_r)}\ \ \ \ \ \ \ \ \ \ \ \ PKL(v||\langle u_l,u_r\rangle) = p(v)\log\frac{p(v)}{p(u_l)p(u_r)}PMI(ul​,ur​)=logp(ul​)p(ur​)p(v)​            PKL(v∣∣⟨ul​,ur​⟩)=p(v)logp(ul​)p(ur​)p(v)​

2.2、特征抽取,检查Informativeness,比如是不是起止词都是非停用词,IDF值检验一下,有书名号,引号之类的连接的词

3、分类,用个分类器比如随机森林,分类短语质量"support vector machine":1,"the experiment shows":0

SegPhrase: 解决合理切分问题

将一个句子用最大似然切割,过滤掉整流频率较低的短语(不合理的短语应该很少出现在切分的结果中)

SegPhrase+: 多跑一轮以加强短语切分

用整改频率,重新计算之前基于原始频率计算的特征

Previous文本挖掘Next实体识别与类型标记

Last updated 6 years ago

SegPhrase
AutoPhrase