自然语言解析中的光谱学习多样性

May, 2015

自然语言解析中的光谱学习多样性

Diversity in Spectral Learning for Natural Language Parsing

Shashi Narayan, Shay B. Cohen

TL;DR本文以 L-PCFGs 谱学习方法为基础，创建多种不同预测模型，添加噪声以及进行多模型演示，并尝试提高自然语言解析的性能，取得了明显提升。其中，英文的 F1 值为 90.18，德文的 F1 值为 83.38。

Abstract

We describe an approach to create a diverse set of predictions with spectral learning of latent-variable pcfgs (L-PCFGs). Our approach works by creating multiple spectral models where noise is added to the underlying features in the training set before the estimation of each model. We

spectral learning latent-variable pcfgs natural language parsing english german

发现论文，激发创造

基于潜变量 PCFG 的语义分析生成改写

为了弥合自然语言问题和知识库之间的词汇句法差距，本文提出了一种基于概率上下文无关语法抽样生成语义解析问题的语法模型，实现了自然语言问题向知识库查询的转换，提高了语义解析性能。

Jan, 2016

神经双词汇化 PCFG 归纳

本文提出一种参数化 Neural lexicalized PCFGs 的方法，该方法直接模拟双词依赖性，并同时降低 L-PCFGs 的学习和表达复杂度，实验结果表明该方法提高了解析性能。

May, 2021

基于预训练语言模型的多语言基于图表的成分句法分析提取

本研究开发了一种基于图表的方法和有效的 top-K 集成技术，通过应用这种方法到多语言的预训练语言模型中，可以在集成和语言无关的方式下诱导出九种语言的句子的非平凡解析，同时发现了普遍的注意力头，这些头与句法信息的感知是一致的，验证了该方法的鲁棒性。

Apr, 2020

探索深度神经网络如何学习语言结构的理论

通过下一个词预测需要多少数据来学习语言的结构？我们通过一个概率上下文无关文法 (PCFG) 生成的合成数据集进行了研究，该文法是表示自然语言树状结构的层次生成模型。我们在模型中通过分析确定了词 - 词之间的相关性，并显示它们可以用来构建文法的隐藏变量表示，范围越长，变量越深。此外，有限的训练集限制了相关性的分辨率，其有效范围的大小随训练集的增大而增加。因此，使用越来越多的样本进行训练的语言模型可以建立更深入的文法结构表示，从而在问题的高维度下达到良好的性能。我们推测训练集大小与相关性的有效范围之间的关系不仅适用于合成数据集，而且适用于其他数据集。特别是，我们的推测预测了测试损失随训练集大小变化的缩放规律与上下文窗口长度的关系，我们通过莎士比亚剧作中的一系列台词进行了实证验证。

May, 2024

无监督语法归纳是否需要像素？

本论文探究了多模态线索对于语法成分归纳是否仍然存在显著收益，发现相对于以往多模态方法，基于大型语言模型的 C-PCFG（LC-PCFG）方法在无监督的成分归纳任务中表现更好，并且在参数计算上可以降低 50% 以上，在图像辅助模型的训练时间上可以提高 1.7 倍，在视频辅助模型的训练时间上可以提高 5 倍以上。这些结果挑战了需要图像像素等外语信号来进行无监督语法归纳的观点，并指向了提高基于纯文本的基准以评估多模态之必要性的需求。

Dec, 2022

学习数据合成以用于语义解析

本篇论文提出了一种生成模型，该模型具有模拟编程语言的组合结构的 PCFG 模型和将编程转化为语句的 BART 模型，能够有效且高效地从现有的数据中学习，并且能够探索多样化的未知数据，通过在 GeoQuery 和 Spider 标准基准测试中的实验结果表明，该模型合成的数据可以大大帮助语义解析器实现更好的组合性和领域泛化。

Apr, 2021

使用轻微上下文敏感文法进行非监督式不连续成分句法分析

研究语法诱导，使用线性无上下文重写系统进行无监督不连续解析，将文法形式限制为二元 LFCRS 并使用张量分解与参数化规则概率得到大量非终端符号，从而能够诱导出具有连续和不连续结构的语言学意义的树。

Dec, 2022

PCFGs 能做得更好：用许多符号诱导概率上下文无关文法

本文介绍了一种基于张量分解的新的概率上下文无关文法参数化形式，其符号数量的计算复杂度最多为二次，适用于大量符号，可以进一步使用神经参数化来改善无监督解析性能。

Apr, 2021

透明、来源：评估和解释有真实分布访问的语言模型

我们提出了一种使用人工制造的类似语言的数据来训练、评估和解释神经语言模型的设置。使用大规模概率语法（基于状态拆分的 PCFGs）生成数据，该语法源自大型自然语言语料库，但也可完全控制生成过程。通过比较神经语言建模架构和训练目标对可获取困惑度下界的逼近程度的差异，我们得出了显著的结果。我们的方法还允许直接将学到的表示与底层源中的符号规则进行比较，并尝试了各种用于解释模型行为和学习动态的技术。通过访问底层真实源，我们的结果显示出不同类别的单词在学习动态方面存在明显的差异和结果。

Oct, 2023

视觉基础复合 PCFG

本文将视觉与语言相结合用于语言理解，采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型，在 MSCOCO 测试标题上取得了新的最佳效果，证实了视觉基础在短语结构语法归纳中的有效性。

Sep, 2020