Grammar Induction for Spoken Dialogue Systems

之前实习的时候做过一些语法推导(Grammar Induction)方面的工作，当时用的方法主要基于N-gram的一些推导，虽然工作量大，但是基本上属于baseline的方法，最近空下来，打算对这部分内容进行深入的研究和学习。

先主要介绍一些grammar induction 这个概念，由于不是热门的研究问题，查了一下资料（都是一些英文文献，更加表明这一领域的冷门了），该任务旨在促进词汇语义计算模型在口语对话系统（SDS）领域的应用，特别是针对语法归纳问题。语法构成 SDS 的重要组成部分，表示感兴趣领域的语义。在这项任务中的重点是有限状态机语法。
这种语法的规则分为低级和高级。低级规则涉及基本概念，仅由词汇项组成。例如，低级规则 \ 的实例可能是“New York”、“London”、“Paris”，在语法层次中移到更高的是高级规则，它们是语义相关片段的分组，由词汇术语和低级规则组成。
例如，目的地城市概念 \ 的实例是“fly to \”和“arrive at \”。
比如对于例子：”I want to fly to Paris” 将首先被解析为 “I want to fly to \“ 然后被归纳为 “I want to “.
目前来说，对于低级的语法规则的研究更多，对于高级的语法研究偏少一些。

低级规则归纳通常包括两个步骤：多词提取（例如，“New York”、“John F. Kennedy airport”）和低级规则的归纳/填充。
上述步骤可以通过经过充分研究的方法来解决，包括命名实体识别、单词/术语之间的语义相关性估计、语义相似的单词/术语聚类以引入低级规则。

自动语法创建过程的高级规则归纳/填充部分。

将相同的块归纳为高级的语法规则，创建由语义相似的块组成的簇（使用片段语义相似度度量）
比如从下面两个块“depart from \” and “fly out of \”,那么它们都可以归纳为departure city。

该任务归结为语义相似性估计问题。研究表明，与通用单词、短语和句子级别的语义相似度估计和句子级别相比，估计各种 SDS 域的语法片段之间的语义相似度表现出显著差异。主要区别在于需要以域语义为条件估计相似性。例如，关键领域概念通过词汇内容的细微变化来区分，例如，“flight to \”与“flight out of \”,

(未完待续)

参考文献1

参考文献2