ACLJul, 2023

高效的半环加权 Earley 解析

TL;DR这篇论文通过退化系统的形式提供了 Earley (1970) 上下文无关解析算法的参考描述,其中包括了多种加速的方法。我们的展示包括从 Earley 的 $O (N^3|G||R|)$ 到 $O (N^3|G|)$ 的已知最坏情况运行时间改进,这在自然语言处理中出现的大型语法中是不可行的,它与语法 G 的二元化版本上的 CKY 算法的运行时间相匹配。在这里,N 是句子长度,|R | 是 G 中的产生式数目,|G | 是这些产生式的总长度。我们还提供了一个版本,在将语法简洁地表示为单个有限状态自动机 M 时实现了 O (N^3|M|) 的运行时间(这部分是新颖的)。我们细致地处理了到半环权重退化的概括,像 Stolcke (1995) 那样预处理语法以消除退化循环,并进一步推广 Stolcke 的方法以计算句子前缀的权重。我们还提供了高效执行的实现细节,在预处理语法上,我们方法的半环权重版本具有与无权重方法相同的渐近运行时间和空间要求,包括在某些语法上在次立方时间内的运行时间。