本研究提出$k$-最近邻机器翻译方法,基于神经翻译模型的表示进行相似性搜索,不需要额外训练,适用于广泛的场景,并且可以通过使用特定于域的数据存储库来适应不同的领域,显著提高翻译性能。
Oct, 2020
本文提出了一种快速的$k$最近邻机器翻译模型,通过使用仅限于相同查询令牌的最近令牌级邻居来限制查询空间,从而大大提高了解码效率,并实现了与$k$NN-MT相当的性能表现,只比标准NMT模型慢两倍。
May, 2021
提出了一种基于自动编码器的$k$NN-MT方法,可以利用目标语言的单语句子构建有效的数据库来达到无监督的领域自适应翻译,从而提高翻译的准确性和可靠性。
Sep, 2021
本文提出了一种用于领域自适应的非参数翻译解决方案“k最近邻机器翻译(kNN-MT)”,并通过在聚类的基础上通过对比学习的方式构建紧凑网络,提高了检索效率并且在大型数据集上取得了更好或相当的性能表现,同时对于不同领域的通用性很强。
Apr, 2022
本文提出了一种新的基于分块的$k$NN-MT模型,在机器翻译领域中具有显著的速度优势,同时实现了对域适应能力的支持。
May, 2022
本文提出了一种基于句子级检索的最近邻机器翻译框架,用于快速领域自适应,该框架旨在大大提高 kNN-MT 模型的解码和存储效率,并且不会影响翻译性能。实验证明,该框架不仅能够达到与 NMT 模型相同的速度,且能够显著减少存储要求。
Feb, 2023
本文分析了$k$NN-MT的理论和实证研究,以及针对多域实验和单词级别的分析,发现在特定情况下,结合$k$NN-MT和适配器的方法能够实现与在域测试集上微调相当的翻译性能,并在域外测试集上取得更好的性能,同时,优化上下文表示可以弥补低频特定领域词汇召回方面$k$NN-MT与微调的差距。
May, 2023
本研究提出了一种新颖的方法来增强 $k$NN-MT 的数据存储器的检索能力,通过重构原始数据存储器来解决上游和下游域之间存在的显著差距。该方法设计了一个修订者来修订关键表示,使其更适合下游域。修订者使用收集的语义相关键-查询对进行训练,并通过两个提出的损失进行优化:一个是关键查询语义距离,确保每个修订后的关键表示与其相应查询有语义相关性 , 另一个是 L2 - 规范损失,鼓励修订关键表示有效保留上游 NMT 模型所学的知识。在域自适应任务上的大量实验表明,我们的方法可以有效提高 $k$NN-MT 的数据存储器检索和翻译质量。
通过提出的多层感知器神经网络与 kNN-MT系统结合,成功减少了冗余的检索操作,并显著降低了 kNN 检索的开销,虽然会导致轻微的翻译质量下降,但该方法可以与所有现有的 kNN-MT系统配合使用。
Dec, 2023
非参数NMT领域自适应研究中,提出了基于k最近邻机器翻译的动态检索方法,通过线性插值系数lambda调整质量分布预测,同时引入基于多层感知机的分类器以及动态生成阈值的方法,从而提高模型的效率和适应性。
Jun, 2024