上下文感知机器翻译的序列缩短

ACLFeb, 2024

Sequence Shortening for Context-Aware Machine Translation

Paweł Mąka, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis

TL;DR在此研究中，我们展示了一种特殊情况的多编码器架构，其中源句子的潜在表示被缓存并在下一步中被重复使用作为上下文，这在对比数据集上实现了更高的准确度，并且与单编码器和多编码器方法相比具有相可比的 BLEU 和 COMET 分数。此外，我们还研究了将序列缩短应用于缓存表示的方法，我们测试了三种基于汇聚的缩短技术，并引入了两种新方法 - 潜在分组和潜在选择，其中网络学习将标记分组或选择为上下文进行缓存。我们的实验结果表明，这两种方法在对比数据集上达到了与其他测试方法相当的 BLEU 和 COMET 分数和准确度，同时可能具有更高的可解释性，并在上下文大小增加时减少了内存需求的增长。

Abstract

context-aware machine translation aims to improve translations of sentences by incorporating surrounding sentences as context. Towards this task, two main architectures have been applied, namely single-encoder (b

context-aware machine translation single-encoder multi-encoder models sequence shortening latent grouping

发现论文，激发创造

面向上下文感知神经机器翻译的聚焦拼接

本文提出一种改进的连接方法，加强句子边界和相对句子距离概念，从而促进模型满足上下文折扣化目标，提高语境感知神经机器翻译，表现优于基准连接法和其他复杂的上下文感知系统。

Oct, 2022

利用链接方式增强上下文感知的神经机器翻译中的编码句子位置

本研究采用 segement embeddings 帮助 Transformer 识别翻译串联中每个句子的位置，并通过比较不同的 segment embeddings 和提出的方法，发现除了在特定情况下，它们并不会对原始串联方法产生益处。

Feb, 2023

长短距离上下文神经网络语言模型

本文提出了一种新的多跨度架构，通过一种新的循环长短期上下文（LSRC）网络，显式地模拟本地（短期）和全局（长期）上下文，分别模拟短期和长期的上下文信息，用于语言模型任务。

Aug, 2017

利用句子上下文进行神经机器翻译

本研究提出了利用句子上下文进行神经机器翻译的新方法，并在 WMT14 英德和英法基准测试中进行了实验，结果表明，通过利用句子上下文可以提高翻译性能，深度句子上下文可以形成更全面的上下文表示。

Jun, 2019

SEQ^3: 可微分的序列到序列到序列自编码器用于无监督的抽象句子压缩

本文介绍了一种基于序列 - 序列 - 序列自编码器 (SEQ^3) 的神经网络模型用于非监督抽象句子压缩，利用预训练语言模型作为潜变量的先验，结合连续的松弛机制使模型可优化，避免了对平行文本摘要对的依赖，实现了在基准数据集上取得了诱人的结果。

Apr, 2019

长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

本研究探索了基于上下文感知框架的神经机器翻译系统，研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势，因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播，在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。

Sep, 2020

HanoiT: 通过选择性上下文增强上下文感知翻译

本文提出了一种使用层间选择机制来筛选和优化长文档上下文的端到端编码器 - 解码器模型，以改善神经机器翻译的质量。实验证明，该模型通过软选择机制在四组数据集上明显优于以前的模型。

Jan, 2023

压缩上下文以增强大型语言模型的推理效率

使用选择性上下文方法（Selective Context）可以显著提高大型语言模型（LLMs）的推理效率，减少内存占用和推理时间，并在维持可比较性能的基础上实现对上下文成本的 50％降低，36％的推理内存使用率降低以及 32％的推理时间降低。

Oct, 2023

分而治之：针对上下文感知多编码器翻译模型的有效预训练

本文介绍了多编码器模型在训练语境参数时的困难，并提出了预训练上下文参数的四种不同拆分方法，进而增加上下文训练信号，并缩短上下文片段，从而提高了上下文参数的学习效果。在 BLEU 和对比测试集的评估下，结果表明本方法在低资源和高资源设置下都能有效地提高学习效果。

Mar, 2021

基于句法先导的注意力网络用于句子压缩

本文提出了一种基于 SLAHAN 的序列到序列 (Seq2Seq) 模型，在解码过程中明确跟踪依赖父 / 子词以及捕捉将来将被解码的重要词汇，进而解决了在压缩句子过程中生成不合语法的问题，同时在 Google 数据集上取得了最佳的保留标记 F1、ROUGE-1、ROUGE-2 和 ROUGE-L 分数，同时高效提高了摘要生成性能。

Feb, 2020