PCFGs 能做得更好:用许多符号诱导概率上下文无关文法
本文提出一种参数化 Neural lexicalized PCFGs 的方法,该方法直接模拟双词依赖性,并同时降低 L-PCFGs 的学习和表达复杂度,实验结果表明该方法提高了解析性能。
May, 2021
本文演示了基于上下文无关文法(CFG)的语法归纳方法从建模词法依赖方面受益,这与当前最流行的语法归纳方法形成对比,后者专注于发现要么为构件,要么为依存关系;本研究的神经模型克服了稀疏性问题,有效地在单个模型中诱导了构件和依存关系的统一框架;实验证明,与单独建模形式主义相比,该统一框架对于两种表示都有更强的结果。
Jul, 2020
研究语法诱导,使用线性无上下文重写系统进行无监督不连续解析,将文法形式限制为二元 LFCRS 并使用张量分解与参数化规则概率得到大量非终端符号,从而能够诱导出具有连续和不连续结构的语言学意义的树。
Dec, 2022
我们研究了一个语法归纳问题的正式化,其将句子建模为由复合概率上下文无关文法生成。与传统的学习单一随机文法的方式不同,我们的文法的规则概率由每个句子的连续潜变量调制,这在传统上下文无关假设以外引出了边际依赖性。这种文法的推理通过折叠变分推理实现,在这种方法中,连续变量上放置平化的变分后验,并通过动态规划边际化潜在树。针对英语和中文的实验表明,与最近的最先进方法相比,我们的方法在无监督语法分析评估时非常有效。
Jun, 2019
该研究利用快速的复合概率上下文无关文法的实现程序,在评估英语和形态丰富的语言的过程中,发现复合概率上下文无关文法不但数据效率高,而且最大限度利用了全局句子级信息以及预终端符规则概率,但是英语下的最佳配置并不总是适用于形态丰富的语言。
Mar, 2021
通过下一个词预测需要多少数据来学习语言的结构?我们通过一个概率上下文无关文法 (PCFG) 生成的合成数据集进行了研究,该文法是表示自然语言树状结构的层次生成模型。我们在模型中通过分析确定了词 - 词之间的相关性,并显示它们可以用来构建文法的隐藏变量表示,范围越长,变量越深。此外,有限的训练集限制了相关性的分辨率,其有效范围的大小随训练集的增大而增加。因此,使用越来越多的样本进行训练的语言模型可以建立更深入的文法结构表示,从而在问题的高维度下达到良好的性能。我们推测训练集大小与相关性的有效范围之间的关系不仅适用于合成数据集,而且适用于其他数据集。特别是,我们的推测预测了测试损失随训练集大小变化的缩放规律与上下文窗口长度的关系,我们通过莎士比亚剧作中的一系列台词进行了实证验证。
May, 2024
本文提出一种新的 GNN 设计策略,利用无上下文语法生成矩阵语言 MATLANG,从而确保 WL 表达能力,子结构计数能力和谱属性。根据该策略,设计了语法图神经网络 G$^2$N$^2$,证明了其在边级上计算长度为 6 的环并能够达到带通滤波器,实验结果证实了理论结果。
Mar, 2023
Non-autoregressive Transformer (NAT) 通过引入 Probabilistic Context-Free Grammar (PCFG) 提升了神经机器翻译的表达能力,并缩小了 NAT 与 AT 模型之间的翻译质量差距。
Nov, 2023
使用张量秩分解技术处理计算复杂度问题,使得能够更有效地对 Hidden Markov Models 和 Probabilistic Context-Free Grammars 进行因子图文法表示和推断。在语言建模和无监督语法分析任务上,相较于之前的方法有更好的表现。
May, 2022