神经机器翻译蒸馏数据的采样和过滤

ACLApr, 2021

神经机器翻译蒸馏数据的采样和过滤

Sampling and Filtering of Neural Machine Translation Distillation Data

Vilém Zouhar

TL;DR本文探究了利用重要性抽样法进行神经机器翻译中的知识蒸馏，包括剪枝、假设上采样和下采样、去重和它们的组合，并使用标准的翻译质量评估方法对英德和英捷翻译模型进行训练与测试，结果显示，仔细选择合适的数据进行上采样并与原始数据组合，可获得更好的性能提升。

Abstract

In most of neural machine translation distillation or stealing scenarios, the goal is to preserve the performance of the target model (teacher). The highest-scoring hypothesis of the teacher model is commonly use

neural machine translation distillation performance preservation importance sampling method combination

发现论文，激发创造

神经机器翻译的选择性知识蒸馏

该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析，提出了批级和全局级别的样本选择策略来优化知识蒸馏，实验结果表明，该方法在 WMT'14 英语 -> 德语和 WMT'19 中文 -> 英语机器翻译任务中提高了机器翻译的 BLEU 得分。

May, 2021

定向困难词汇的神经机器翻译反向抽样

该研究探讨了逆向翻译的不同方面，并表明在训练期间预测损失高的单词最能从合成数据的添加中获益。使用以困难预测单词的预测损失和单词频率的采样策略，以及类似背景的选取句子的策略比随机采样的逆向翻译方法在 WMT 新闻翻译任务中提高了翻译质量。在德语 - 英语和英语 - 德语方向上，翻译质量分别提高了 1.7 和 1.2 BLEU 分数。

Aug, 2018

QUEST: 机器翻译的质量感知 Metropolis-Hastings 采样

在机器翻译中，为解决生成高质量和多样化的翻译的挑战，本文采用 Gibbs 分布的能量函数，并通过 Metropolis-Hastings 算法从高密度区域生成多个样本，提供了一种简单有效的方法来避免过度依赖噪声质量估计的问题。实验结果表明，所提出的方法在多种语言对（英语↔德语、俄语）和两个强解码器单模型（Alma-7b、Tower-7b）中产生了高质量和多样化的输出。

May, 2024

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022

目标条件抽样：针对多语言神经机器翻译的优化数据选择

本研究提出了一种名为目标条件采样（TCS）的有效算法，该算法基于构建一个覆盖所有多语数据的采样分布，从而最小化低资源语言的训练损失。实验结果表明，TCS 可显著提高三种测试语言的 BLEU 值，最多可达 2，同时训练开销极小。

May, 2019

多语言神经机器翻译的平衡训练

该论文提出一种利用数据得分器来自动学习如何加权训练数据以最大化所有测试语言性能的方法，优于传统启发式方法，并提供对优化语言的灵活控制。

Apr, 2020

探索采样技术在使用 Transformer 语言模型生成旋律中的应用

本研究探讨了不同的采样技术对音乐质量的影响，训练了一个高容量的变形器模型，使用概率截断采样技术分析样本的音乐特性，在优化和非优化的情况下评估了生成的样本。

Aug, 2023

使用大型语言模型进行翻译假设集成的实证研究

通过对多个大型语言模型 (LLMs) 进行假设集成的研究，对于基于 LLM 的机器翻译问题，我们探讨了如何提高生成文本的质量。我们尝试了多种假设集成技术，如 ChatGPT、LLaMA 和 Alpaca，并进行了综合研究，包括生成假设的方法（多个提示、温度采样和束搜索）以及生成最终翻译的策略（基于指令、基于质量的重新排序和最小贝叶斯风险解码）。我们的研究结果表明，MBR 解码是一种非常有效的方法，使用少量样本可以提高翻译质量，指令调整对假设的多样性和采样温度之间的关系具有很大影响。

Oct, 2023

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

神经机器翻译置信度感知的计划采样

本文提出了基于置信度的定时采样策略，针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题，通过使用模型预测的置信度来量化实时模型表现，并设计了细粒度的采样策略。实验结果表明，该策略在 Transformer 模型上显著优于 Vanilla 定时采样，可以提高翻译质量和收敛速度。

Jul, 2021