Large language models (LLMs) have achieved state-of-the-art performance in
various language processing tasks, motivating their adoption in simultaneous
translation. Current fine-tuning methods to adapt LLMs for simultaneous
translation focus on prompting optimization strategies using either data
augmentation or prompt structure modifications. However, these methods suffer
from several issues, such as an unnecessarily expanded training set,
computational inefficiency from dumping the KV cache, increased prompt sizes,
or restriction to a single decision policy. To eliminate these issues, we
propose a new paradigm in fine-tuning LLMs for simultaneous translation, called
SimulMask. It utilizes a novel attention mask technique that models
simultaneous translation during fine-tuning by masking attention connections
under a desired decision policy. Applying the proposed SimulMask on a Falcon
LLM for the IWSLT 2017 dataset, we have observed a significant translation
quality improvement compared to state-of-the-art prompting optimization
strategies on three language pairs when averaged across four different latency
regimes while reducing the computational cost.

利用一种名为 SimulMask 的新模式，通过在 Fine-tuning 期间通过屏蔽注意力连接来建模即时翻译，成功解决了一系列问题，从而使大语言模型在同时翻译任务中取得了显著提升的翻译质量，并减少了计算成本。