超网络中的注意力
使用谷歌的翻译翻译:“该论文介绍了基于变压器的模型如何理解世界,并将语言表达与现实世界联系起来,这对研究者在这一领域的工作非常有帮助。通过在基于网格的导航任务上进行的基准测试,我们发现识别网格世界中的目标位置是模型面临的主要挑战,变压器可以泛化到更深的输入结构,并提供了一种更简单的基于调节的组合任务,以调查变压器的计算行为。
Oct, 2022
该文探讨了怎样使用 Transformer 网络在算法任务中表现良好,展示了多层 transformer 网络在任务分解中的可靠性解决方案,以及所有相关任务中的共享计算的利用。
Oct, 2022
本文介绍了 seq2attn,这是一种新的架构,旨在利用注意力来发现输入中的组合模式。这篇论文证明了 seq2attn 可以成功地推广应用于挑战神经网络组合技能的两项任务。
Jun, 2019
本文介绍了一种测量神经程序合成方法能否组合泛化的方法,引入了基于两个流行数据集的任务基准套件,以评估合成器在组合泛化方面的能力,最后通过新的注意机制来改进变压器模型的组合泛化能力
Apr, 2022
该论文提出了两种辅助序列预测任务来帮助解决神经模型在学习符号结构时的不足,并通过在 SCAN 数据集上的实验证明了所提出的方法可以提高 Transformer 模型理解命令的组合结构的能力。
Sep, 2021
通过探索 Transformer 模型的设计空间,我们发现一些设计上的决策对该模型的归纳偏差有很大的影响。我们发现这些决策可以显著地提高 Transformer 模型的组合泛化能力,并在各种复合任务中实现了比文献报道的更好的泛化结果,并在语义分析组合泛化基准(COGS)和字符串编辑操作组合基准(PCFG)中实现了最先进的结果。
Aug, 2021
本研究探索使用双重表示来编码组合性,一种生成注意力图,另一种将输入转化为数字的映射。我们改进了每种表示中的熵来提高泛化能力。在五项自然语言处理任务中,实验结果显示本方法对于传统方法有显著的改进,协助实现人类级别的组合语言学习。
Oct, 2019
介绍了一种广泛适用的形式主义,即组合问题图,以解决机器学习中不利于推广的问题,提出了组合泛化问题并引入组合递归学习器,该框架适用于学习算法过程以组合表示转换,从而产生能够进行推理的学习器。
Jul, 2018