TPDM: 通过 Token 级位置隔离模块有选择性地移除位置信息,用于零样本翻译
本研究提出了一种能够有效缓解多语言神经机器翻译中面临的零翻译问题的方法。我们的改进主要在于移除编码器层中的残差连接,使模型表示更多地与特定语言对应。通过此种改进,我们在零翻译的任务上获得高达 18.5 个 BLEU 点的提升,而且在其他有监督的翻译中保持了高质量的表现。通过对隐藏层输出的详细检查,我们也表明了我们的方法确实能够获得更多的语言无关性。
Dec, 2020
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
本研究论述了传统 Transformer 语言模型中位置嵌入的必要性,提出随机初始化且去除位置嵌入的模型仍具备显著的位置信息,可以舍弃位置嵌入以提高预训练模型的效率。
May, 2023
通过消除输入段落顺序的不同,我们的方法改变了因果注意力,使其变为段落之间的双向关注,并利用模型关注值来决定段落的相对顺序,从而实现了段落级的位置不变推理(PINE),消除位置偏差使得模型在广泛存在位置偏差的下游任务中获得更好的性能和可靠性。
Jul, 2024
本研究探讨了基于因果变换的语言模型(LMs),例如 GPT-3,需要某种形式的位置编码,例如位置嵌入。然而,我们发现在没有任何显式位置编码的情况下,这样的 LM 与标准模型仍然具有竞争力,这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明,这种模型通过网络获取隐含的绝对位置概念,从而有效弥补了缺失的信息。我们推测,因果注意力使模型能够推断每个令牌可以关注的前任数,从而近似其绝对位置。我们的发现表明,因果 LMs 除了显式的定位机制外,还可以从因果掩码的影响中推导出位置意识。
Mar, 2022
本文介绍了如何使用双语平行数据集来模拟目标语序,在改进了位置编码机制的基础上,提出了一种新的序列重排序方法来显式地模拟源语句子的重排序信息,同时实验证明,该方法在多种翻译任务中均有效。
Apr, 2020
本文提出了一种新的多文档自动摘要模型,使用文档关系编码和基于语言指导的编码辅助 Transformer 模型来增强多文档摘要的质量,实验结果表明该模型可以生成高质量的自动摘要。
Sep, 2022
通过设计归一化方法来改进 Transformer 模型以实现对未在训练过程中出现的语言对进行零 - shot 机器翻译,此方法可使系统在 IWSLT 2017 多语言数据集中平均提高 2.23 BLEU 分数。
Jun, 2019