SiLLM:大型语言模型用于同步机器翻译
同时机器翻译(SiMT)通过阅读源语句来生成目标翻译,在确定最佳时机阅读句子和生成翻译的策略方面,现有的 SiMT 方法通常采用传统的 Transformer 架构,虽然它们擅长确定策略,但其翻译性能却不够优化。相反,基于丰富语料库训练的大型语言模型(LLMs)具有卓越的生成能力,但它们很难通过 SiMT 的训练方法获得翻译策略。因此,我们引入 Agent-SiMT,这是一个将 LLMs 和传统 SiMT 方法的优势结合起来的框架。Agent-SiMT 包含策略决策代理和翻译代理。策略决策代理由一个 SiMT 模型管理,使用部分源语句和翻译来确定翻译策略。而翻译代理则利用 LLM 基于部分源语句生成翻译。这两个代理共同合作完成 SiMT。实验证明,Agent-SiMT 达到了最先进的性能。
Jun, 2024
经过小规模数据集上的微调后,预训练的开源解码器 - 仅模型可以通过生成特殊的 “等待” 标记直接控制输入分段,从而在同时翻译任务中达到与最先进基准模型相媲美的 BLEU 分数;尚未进行先前训练的闭源模型在此任务中显示出令人鼓舞的结果,为改进未来的同时翻译系统指明了一个有希望的方向。
Feb, 2024
利用大型语言模型进行同传机器翻译,在训练推理不匹配的问题上引入了简单而有效的混合策略,并且通过在完整和前缀句子的混合训练上进行监督微调,实现了显著的性能改进,证明大型语言模型可以在翻译质量和延迟方面达到与专用同传机器翻译模型相当的水平。
Sep, 2023
大型语言模型在神经机器翻译中的应用被广泛研究,本文关注于将大型语言模型 fine-tuning 用于较困难的同时翻译任务,验证了经典方法在大型语言模型上的有效性,探索了将用于机器翻译的大型语言模型调整为同时翻译任务的适应方法,并引入 Simul-LLM,首个专注于同时翻译任务的开源 fine-tuning 和评估流程框架。
Dec, 2023
大型语言模型在同时机器翻译任务中表现出与某些最先进基准系统相当或更好的性能,并且注入最少的背景信息(容易实现)可以进一步提高性能,尤其是在具有挑战性的技术主题上。这凸显了大型语言模型构建下一代大规模多语言、上下文感知和术语准确的同时翻译系统的潜力,而无需资源密集型的训练或微调。
Jun, 2024
这篇论文提出了一种基于 LlM 的对话式 SimulMT 框架,通过多轮对话解码提高 LLM 的推理效率,在两个 SimulMT 基准测试中展示了 LLM 在翻译质量上的优越性以及与专用 SimulMT 模型相当的计算延迟。
Feb, 2024
本论文提出了一种基于 Mixture-of-Experts Wait-k 机制的通用即时翻译模型,采用多头注意力实现专家混合,每个专家根据其自己的等待词数被认为是 wait-k 专家,并根据测试延迟和源输入调整专家权重以产生最佳翻译,可以在任意延迟下实现最佳翻译质量,实验结果表明,该方法优于现有方法。
Sep, 2021
使用大型语言模型(LLM-SI-Corpus),将现有的语音翻译语料库转化为解释风格的数据,通过对 Simultaneous Machine Translation(SiMT)模型进行 fine-tuning,可以在减少延迟的同时保持与离线数据集训练模型相同质量水平。
Apr, 2024