一枚NLPer小菜鸡

Grammar Induction for Spoken Dialogue Systems

之前实习的时候做过一些语法推导(Grammar Induction)方面的工作,当时用的方法主要基于N-gram的一些推导,虽然工作量大,但是基本上属于baseline的方法,最近空下来,打算对这部分内容进行深入的研究和学习。

先主要介绍一些grammar induction 这个概念,由于不是热门的研究问题,查了一下资料(都是一些英文文献,更加表明这一领域的冷门了),该任务旨在促进词汇语义计算模型在口语对话系统(SDS)领域的应用,特别是针对语法归纳问题。语法构成 SDS 的重要组成部分,表示感兴趣领域的语义。在这项任务中的重点是有限状态机语法。
这种语法的规则分为低级和高级。低级规则涉及基本概念,仅由词汇项组成。例如,低级规则 \ 的实例可能是“New York”、“London”、“Paris”,在语法层次中移到更高的是高级规则,它们是语义相关片段的分组,由词汇术语和低级规则组成。
例如,目的地城市概念 \ 的实例是“fly to \”和“arrive at \”。
比如对于例子:”I want to fly to Paris” 将首先被解析为 “I want to fly to \“ 然后被归纳为 “I want to “.
目前来说,对于低级的语法规则的研究更多,对于高级的语法研究偏少一些。

低级规则归纳通常包括两个步骤:多词提取(例如,“New York”、“John F. Kennedy airport”)和低级规则的归纳/填充。
上述步骤可以通过经过充分研究的方法来解决,包括命名实体识别、单词/术语之间的语义相关性估计、语义相似的单词/术语聚类以引入低级规则。

自动语法创建过程的高级规则归纳/填充部分。

将相同的块归纳为高级的语法规则,创建由语义相似的块组成的簇(使用片段语义相似度度量)
比如从下面两个块“depart from \” and “fly out of \”,那么它们都可以归纳为departure city。

该任务归结为语义相似性估计问题。研究表明,与通用单词、短语和句子级别的语义相似度估计和句子级别相比,估计各种 SDS 域的语法片段之间的语义相似度表现出显著差异。主要区别在于需要以域语义为条件估计相似性。例如,关键领域概念通过词汇内容的细微变化来区分,例如,“flight to \”与“flight out of \”,

(未完待续)

参考文献1

参考文献2

O(∩_∩)O哈哈~