神经双词汇化 PCFG 归纳
本文演示了基于上下文无关文法(CFG)的语法归纳方法从建模词法依赖方面受益,这与当前最流行的语法归纳方法形成对比,后者专注于发现要么为构件,要么为依存关系;本研究的神经模型克服了稀疏性问题,有效地在单个模型中诱导了构件和依存关系的统一框架;实验证明,与单独建模形式主义相比,该统一框架对于两种表示都有更强的结果。
Jul, 2020
本文介绍了一种基于张量分解的新的概率上下文无关文法参数化形式,其符号数量的计算复杂度最多为二次,适用于大量符号,可以进一步使用神经参数化来改善无监督解析性能。
Apr, 2021
该研究利用快速的复合概率上下文无关文法的实现程序,在评估英语和形态丰富的语言的过程中,发现复合概率上下文无关文法不但数据效率高,而且最大限度利用了全局句子级信息以及预终端符规则概率,但是英语下的最佳配置并不总是适用于形态丰富的语言。
Mar, 2021
研究语法诱导,使用线性无上下文重写系统进行无监督不连续解析,将文法形式限制为二元 LFCRS 并使用张量分解与参数化规则概率得到大量非终端符号,从而能够诱导出具有连续和不连续结构的语言学意义的树。
Dec, 2022
我们研究了一个语法归纳问题的正式化,其将句子建模为由复合概率上下文无关文法生成。与传统的学习单一随机文法的方式不同,我们的文法的规则概率由每个句子的连续潜变量调制,这在传统上下文无关假设以外引出了边际依赖性。这种文法的推理通过折叠变分推理实现,在这种方法中,连续变量上放置平化的变分后验,并通过动态规划边际化潜在树。针对英语和中文的实验表明,与最近的最先进方法相比,我们的方法在无监督语法分析评估时非常有效。
Jun, 2019
该研究采用词汇化的概率上下文无关文法和改进的 EM 算法从 5,000 万个单词的文本语料库中学习词汇,评估结果表明该模型可以准确地产生框架分布。
May, 1998
本论文探究了多模态线索对于语法成分归纳是否仍然存在显著收益,发现相对于以往多模态方法,基于大型语言模型的 C-PCFG(LC-PCFG)方法在无监督的成分归纳任务中表现更好,并且在参数计算上可以降低 50% 以上,在图像辅助模型的训练时间上可以提高 1.7 倍,在视频辅助模型的训练时间上可以提高 5 倍以上。这些结果挑战了需要图像像素等外语信号来进行无监督语法归纳的观点,并指向了提高基于纯文本的基准以评估多模态之必要性的需求。
Dec, 2022
通过低秩参数化规则概率张量,将稠密 PCFG 扩展到数千个非终结符,有助于无监督解析。本文提出了一种简单的 PCFG 形式,独立的左右生成,这种形式比低秩方法更有效地扩展为语言模型和无监督解析器,并且具有更好的性能。同时,我们还提出了一种硬件 IO 感知的内部算法实现,用于高效扩展简单的 PCFG。
Oct, 2023
为了弥合自然语言问题和知识库之间的词汇句法差距,本文提出了一种基于概率上下文无关语法抽样生成语义解析问题的语法模型,实现了自然语言问题向知识库查询的转换,提高了语义解析性能。
Jan, 2016