基于语法指导的神经模组蒸馏探测句子嵌入的组合性

ACLJan, 2023

基于语法指导的神经模组蒸馏探测句子嵌入的组合性

Syntax-guided Neural Module Distillation to Probe Compositionality in Sentence Embeddings

Rohan Pandey

TL;DR通过构建基于语法解析的神经模块网络，研究表明语法是句子嵌入模型合成能力中的强因果模型，同时发现句子嵌入模型的可深化性与性能相关，而非线性的语法引导合成只在处理非组成性短语时起作用。

Abstract

Past work probing compositionality in sentence embedding models faces issues determining the causal impact of implicit syntax representati

compositionality sentence embedding models syntax neural module net geometry of semantic composition

发现论文，激发创造

通过分离语法和语义，在深度序列到序列模型中实现对组合概括的学习

本文提出一种基于神经机器翻译的新模型 Syntactic Attention，采用分离语法与语义学习的方式训练，拥有捕捉人类语言组成性结构的能力，相较于标准深度学习方法在具有组成性泛化任务的数据集 SCAN 上表现显著优异。

Apr, 2019

评估句子嵌入中的组合性

本文介绍了一个新的自然语言推理任务数据集，旨在解决人工智能中的句子组成意思的问题，使用深度神经网络学习语义向量表示法，得出发现表明 Inference 等现有句向量算法性能较差，但使用本文提供的数据集进行训练，可提高测试性能和提高人工智能系统的表现水平。

Feb, 2018

从上下文化单词表示中无监督地提取句法信息

本文讲述了如何通过自动生成语义不同但结果相似的句子组集来学习一种转换，以去除词法语义但保留结构信息，并证明这种方法在结构聚类方面的效果优于词汇语义聚类方法，最终在少样本解析任务中优于原始上下文化语言表示。

Oct, 2020

使用组合神经模块网络进行图像字幕生成

本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案，探索了自然语言的组成和顺序性，选择性地关注输入图像中每个检测到的对象的不同模块，以包括计数和颜色等特定描述，提出模型优于现有模型，结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。

Jul, 2020

双向编码器句法结构提取预训练

本文研究了文本表示学习器在句法表现上的优越性和在自然语言句法中的应用，提出了将句法模型的预测注入 BERT 的知识蒸馏策略，并表明在一系列结构预测任务中，这种方法能够显著地减少相对误差。

May, 2020

SG-Net：基于句法引导的机器阅读理解

本文提出使用句法来指导文本建模，通过将显式的句法约束融入到注意机制中，设计出了一种句法导向的自注意力网络 (SG-Net)，并将其应用于预训练语言模型 BERT 中，实验结果表明，SG-Net 设计相对于强基线模型在 SQuAD 2.0 和 RACE 基准测试中都有显著的性能提升。

Aug, 2019

使用知识蒸馏的可扩展语法感知语言模型

利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型，从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中，我们发现，尽管顺序 LSTM 比以前的报告要好得多，但我们提出的技术显著改善了这个基准值，产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性，甚至是在从大量数据中学习的模型中也如此。

Jun, 2019

一种多任务方法用于在句子表示中区分语法和语义

本文提出一种基于神经网络的生成模型，使用两个潜变量来表征句子的句法和语义，并通过训练多个损失函数来实现更好的语义和句法表征的分离，将其应用于句子相似性任务中，并发现该模型的语义和句法表征性能均最优且最为分离。

Apr, 2019

语义标记实现组合泛化

在语义解析中，提出了一个新的解码框架，该框架保留了序列到序列模型的表现力和通用性，同时具有类似词典的对齐和解开信息处理，能够提高模型的组合泛化能力。

Oct, 2020

组合性作为词汇对称性

该文章提出了一种基于数据分布的组合建模通用框架，证明了针对具有词汇表和组合函数的任何可分解任务都存在一族数据转换函数，可在训练数据上产生新的、格式正确的例子，进而说明即使在未知组合函数的情况下 (例如无法编写或推断符号语法), 也可以识别这些数据转换并对普通 RNN 和转换器序列模型进行数据增强，在 CLEVR-CoGenT 视觉问答数据集上获得了最先进的结果，在 COGS 语义分析数据集上获得了与专用模型架构相当的结果。

Jan, 2022