TPDM: 通过 Token 级位置隔离模块有选择性地移除位置信息，用于零样本翻译

May, 2023

TPDM: 通过 Token 级位置隔离模块有选择性地移除位置信息，用于零样本翻译

TPDM: Selectively Removing Positional Information for Zero-shot Translation via Token-Level Position Disentangle Module

Xingran Chen, Ge Zhang, Jie Fu

TL;DR本文介绍了如何通过构建一个基于 Token 级别的位置解缠模块（TPDM）框架，以有选择的方式保留有用的位置信息，从而改善了零 - shot 翻译的性能，并减少了监督方向上的性能损失。

Abstract

Due to multilingual neural machine translation's (MNMT) capability of zero-shot translation, many works have been carried out to fully exploit the potential of MNMT in →

multilingual neural machine translation zero-shot translation positional information token level position disentangle module

发现论文，激发创造

通过分离位置信息提高零样本翻译的准确性

本研究提出了一种能够有效缓解多语言神经机器翻译中面临的零翻译问题的方法。我们的改进主要在于移除编码器层中的残差连接，使模型表示更多地与特定语言对应。通过此种改进，我们在零翻译的任务上获得高达 18.5 个 BLEU 点的提升，而且在其他有监督的翻译中保持了高质量的表现。通过对隐藏层输出的详细检查，我们也表明了我们的方法确实能够获得更多的语言无关性。

Dec, 2020

Transformer 的动态位置编码

本研究提出了一种新的动态位置编码（DPE）方法，通过新的位置嵌入来纠正目标单词的位置信息，相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。

Apr, 2022

大型语言模型的零样本位定偏差

本研究提出了一种零样本去偏置（ZOE）框架，通过利用预训练的大型语言模型的无监督回复来减轻位置偏差，从而有效地缓解了四种类型的位置偏差。

Jan, 2024

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

无需位置嵌入，自注意力变化中潜在位置信息的转换语言模型

本研究论述了传统 Transformer 语言模型中位置嵌入的必要性，提出随机初始化且去除位置嵌入的模型仍具备显著的位置信息，可以舍弃位置嵌入以提高预训练模型的效率。

May, 2023

消除语言模型的位置偏见：一种机制化方法

通过消除输入段落顺序的不同，我们的方法改变了因果注意力，使其变为段落之间的双向关注，并利用模型关注值来决定段落的相对顺序，从而实现了段落级的位置不变推理（PINE），消除位置偏差使得模型在广泛存在位置偏差的下游任务中获得更好的性能和可靠性。

Jul, 2024

仍可学习位置信息的 Transformer 语言模型无需位置编码

本研究探讨了基于因果变换的语言模型（LMs），例如 GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的 LM 与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明，这种模型通过网络获取隐含的绝对位置概念，从而有效弥补了缺失的信息。我们推测，因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。我们的发现表明，因果 LMs 除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

Mar, 2022

神经机器翻译的显式重排序

本文介绍了如何使用双语平行数据集来模拟目标语序，在改进了位置编码机制的基础上，提出了一种新的序列重排序方法来显式地模拟源语句子的重排序信息，同时实验证明，该方法在多种翻译任务中均有效。

Apr, 2020

针对抽象式多文档摘要的文档感知位置编码和语言引导编码

本文提出了一种新的多文档自动摘要模型，使用文档关系编码和基于语言指导的编码辅助 Transformer 模型来增强多文档摘要的质量，实验结果表明该模型可以生成高质量的自动摘要。

Sep, 2022

利用语言无关约束改进零 - shot 翻译

通过设计归一化方法来改进 Transformer 模型以实现对未在训练过程中出现的语言对进行零 - shot 机器翻译，此方法可使系统在 IWSLT 2017 多语言数据集中平均提高 2.23 BLEU 分数。

Jun, 2019