- ACL基于规则、神经和 LLM 的反向翻译:来自一个拉丁语变种的比较视角
该研究探讨了不同的反向翻译方法对拉丁语(尤其是瓦尔巴迪亚方言)的机器翻译的影响。结果表明,在这种资源稀缺的情况下,所有方法在翻译质量上都达到了可比较的水平,但往返翻译揭示了模型性能上的差异。
- 从合成的输入输出对中学习程序行为模型
模型生成器(Modelizer)是一个基于黑盒程序使用神经机器翻译从其输入 / 输出行为学习模型的新颖框架,所得到的模型可以对给定输入预测程序应该生成的输出,同时还可以预测导致给定输出的输入。模型生成器能够以程序行为的某个特定方面为目标进行 - ACL用多语言编码器和知识蒸馏增强低资源的神经机器翻译:一个案例研究
基于预训练语言模型和知识蒸馏的 seq2seq 架构,用于辅助低资源语言的翻译,包括 mBART-50 不支持的印度次大陆语言。在三种印度低资源语言的四个印度语之间进行评估,与基准相比,蓝 - 4 和 chrF 显著提高,人工评估也证实了我 - 通过技术提升语言学习:介绍一种新的英语 - 阿塞拜疆语(阿拉伯字母)平行语料库
介绍了一种开创性的英语 - 阿塞拜疆语(阿拉伯字母表)平行语料库,旨在弥补在语言学习和机器翻译方面的技术差距,对于资源有限的语言。它由新闻文章和圣典等多种来源构成,旨在增强自然语言处理应用和语言教育技术。通过提出针对英语 - 阿塞拜疆语(阿 - ESALE:增强源代码摘要对齐学习的方法
通过多任务学习范式,利用三个以摘要为重点的任务训练编码器,提出了一种新的改进代码摘要的方法,这三个任务包括单向语言建模(ULM)、掩码语言建模(MLM)和动作词预测(AWP)。实验证明,我们的方法 ESALE 在四个数据集上的表现明显优于基 - 高低资源语言的开放领域对话中,预训练语言模型的语言可移植策略
本文研究使用大规模预训练语言模型(PLMs)在高资源语言中用于开放领域对话系统的语言可移植性策略,主要以法语作为目标低资源语言,通过不同方法评估在目标语言中使用 PLMs 的性能,包括神经机器翻译和 MAD-X Adapter 架构的应用。
- 上下文是否有助于缓解神经机器翻译中的性别偏见?
神经机器翻译模型在其训练数据分布中往往会延续性别偏见。本文通过详细分析英语到德语的刻板职业翻译以及巴斯克语到西班牙语的非信息上下文翻译,检验了上下文感知模型对减轻此类偏见的作用。研究结果表明,虽然上下文感知模型可以显著增强女性术语的翻译准确 - 揭示源的威力:基于源的最小贝叶斯风险解码用于神经机器翻译
本研究提出了一种基于源的 MBR 解码方法(sMBR),利用由后向翻译生成的合成源作为 “支持假设”,以及无参考质量估计度量作为效用函数,实现了仅利用源进行 MBR 解码的首次工作。实验证明,sMBR 明显优于 QE 重排并且与标准 MBR - ACLM3T: 多模文档级机器翻译的新基准数据集
本文介绍了 M3T,这是一个新颖的基准数据集,旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现,并解决了现实世界应用中丰富文本布局所带来的挑战。
- ACL神经机器翻译的确定性可逆数据增强
确定性可逆数据增强(DRDA)是一种简单但有效的数据增强方法,用于神经机器翻译,通过采用确定性分段和可逆操作生成多粒度子词表示,并通过多视角技术将它们拉近,无需额外的语料库或模型变更,DRDA 在几个翻译任务中优于强基线模型(Transfo - 应用内在去偏方法于下游任务:机器翻译的挑战与考虑
通过测量内在消除偏见的方法对神经机器翻译模型的外在偏见的影响,我们发现选择消除偏见的嵌入、词和子词符号的不匹配以及对不同目标语言的影响是影响下游性能和消除偏见成功的三个挑战和不匹配。
- ACL关键学习时期:利用早期训练动态进行高效数据修剪
我们提出了一种新的数据修剪技术:Checkpoints Across Time (CAT),通过利用早期模型训练动态来识别对模型性能最相关的数据点,实现了在减少 50% 的训练数据的同时,与使用完整数据集的性能相当,且优于其他数据修剪技术。
- ACL从解码目标的角度理解和解决翻译结果不足的问题
神经机器翻译 (NMT) 在过去几年取得了显著进展,但仍存在两个具有挑战性的问题,即欠翻译和过翻译。本文从解码目标的角度深入分析了 NMT 中欠翻译的根本原因,并提出了使用预测句子结束标记的置信度作为欠翻译检测器的方法,通过增强基于置信度的 - 机器翻译致命错误的网络风险:以阿拉伯语心理健康推文为案例研究
介绍了一个关于机器翻译关键错误的真实数据集,指出了常见机器翻译存在的伦理和安全问题以及目前常用质量评估指标无法识别关键错误的重要性。
- 自动程序修复:新兴趋势对基准测试提出和暴露问题
机器学习在自动程序修复领域中广泛应用,使用神经机器翻译和大型语言模型生成软件补丁等任务,但与以往的研究存在重要差异,因此评估和比较结果必须谨慎确保其有效性和普遍性,挑战在于现有的评估基准并非针对机器学习技术设计,尤其是大型语言模型,其训练数 - 基于编辑的非自回归神经机器翻译的强化学习
非自回归(NAR)语言模型在神经机器翻译(NMT)中以低延迟著称。然而,由于较大的解码空间和准确捕捉目标单词间的依赖关系的困难,在 NAR 模型和自回归模型之间存在性能差距。为了解决这些挑战,我们将强化学习(RL)应用于编辑型 NAR 模型 - 情感语调在神经机器翻译中的实用性
通过将语音情感信息集成到神经机器翻译系统中,可以提高翻译质量。
- 句级别还是词级别?关于知识蒸馏的综合研究
通过改进的混合方法,将知识蒸馏技术应用于神经机器翻译,以在不同的情境中提高模型性能和压缩模型。
- 从 LLM 到 NMT:借助 Claude 推动低资源机器翻译的发展
Anthropic 在 2024 年 3 月发布的大型语言模型 Claude 3 Opus 在机器翻译方面表现出比其他语言模型更强的能力。虽然我们发现 Claude 在 FLORES-200 上存在数据污染的证据,但我们整理了新的基准数据, - 探索神经机器翻译用于低资源语言:以巴伐利亚语为案例研究
机器翻译在高资源语言取得了接近人类水平的成绩,但低资源语言的研究表明并非所有语言都能从多语言系统中受益。本文通过应用神经机器翻译技术,研究了德语和巴伐利亚语之间的自动翻译系统,并针对低资源语言的困难提出了创新的解决方案,如利用语言相似性和后