组合转码:利用注意力发现更具普适性的解决方案
介绍了 Attentive Guidance,这是一种机制,可以指导序列到序列模型配备关注机制,以找到更多的组合解决方案。通过测试,证明序列到序列模型具备在不需要额外组件的情况下找到组成性解决方案的能力。
May, 2018
本文提出一种基于神经机器翻译的新模型 Syntactic Attention,采用分离语法与语义学习的方式训练,拥有捕捉人类语言组成性结构的能力,相较于标准深度学习方法在具有组成性泛化任务的数据集 SCAN 上表现显著优异。
Apr, 2019
使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力,在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。
Jun, 2024
本文详细比较了两种序列模型在试图解决合成任务时的差别,通过更多的监督信号,辅助注意机制,参数空间和隐藏层激活机制的不同,发现具有引导性的网络在识别更组合解决方案方面具有更高的效率,并且展现出更加模块化的神经元特点。
Jun, 2019
本文介绍了如何通过元 seq2seq 学习策略来改进记忆增强神经网络,在此方法中,模型通过一系列的 seq2seq 问题进行训练,从而获得解决新 seq2seq 问题所需的组合技能,进而解决了组合学习的一些问题。
Jun, 2019
本文针对基础的 seq-to-seq 模型缺乏组合概括能力的问题,重点讨论了使用一次性原语概括来增强这种能力的方法,发现通过修改训练数据的方式,能够使标准的 seq-to-seq 模型实现接近完美的概括能力表现,并且对该现象进行了详细的实证分析,指出了模型的概括性能对于训练数据的特征非常敏感,因而应该在设计这样的基准测试时仔细考虑训练数据的选择。
Mar, 2022
该研究提出了 COMPSITION 模型,它是 Seq2Seq 模型的一个扩展,旨在通过引入一个复合层来适当地学习不同编码器层的表示,以生成传递到不同解码器层的不同键和值,从而在两个现实基准上取得了有竞争力的甚至是最先进的结果。
May, 2023
本文提出了一种基于源输入逐步自适应重编码的 sequence-to-sequence 模型扩展,以此来鼓励解开编码时存在的混淆状态。最终实验结果表明,这个扩展能够提供更好的解释性和推广性。
Oct, 2021
研究表明,在小范围模拟的语言理解任务中,seq2seq 模型具有很强的单词和短语的组合能力,但是当需要推导出新的组合规则时,模型的表现则很糟糕,需要更多的训练。
Jul, 2018