该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析,提出了批级和全局级别的样本选择策略来优化知识蒸馏,实验结果表明,该方法在 WMT'14 英语 -> 德语和 WMT'19 中文 -> 英语机器翻译任务中提高了机器翻译的 BLEU 得分。
May, 2021
该研究探讨了逆向翻译的不同方面,并表明在训练期间预测损失高的单词最能从合成数据的添加中获益。使用以困难预测单词的预测损失和单词频率的采样策略,以及类似背景的选取句子的策略比随机采样的逆向翻译方法在 WMT 新闻翻译任务中提高了翻译质量。在德语 - 英语和英语 - 德语方向上,翻译质量分别提高了 1.7 和 1.2 BLEU 分数。
Aug, 2018
在机器翻译中,为解决生成高质量和多样化的翻译的挑战,本文采用 Gibbs 分布的能量函数,并通过 Metropolis-Hastings 算法从高密度区域生成多个样本,提供了一种简单有效的方法来避免过度依赖噪声质量估计的问题。实验结果表明,所提出的方法在多种语言对(英语↔德语、俄语)和两个强解码器单模型(Alma-7b、Tower-7b)中产生了高质量和多样化的输出。
May, 2024
本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术,利用平衡(子采样)数据将单语教师模型的知识蒸馏到一个多语种学生中,可以提高自然语言处理系统中低资源语言的表现。
Oct, 2022
本研究提出了一种名为目标条件采样(TCS)的有效算法,该算法基于构建一个覆盖所有多语数据的采样分布,从而最小化低资源语言的训练损失。实验结果表明,TCS 可显著提高三种测试语言的 BLEU 值,最多可达 2,同时训练开销极小。
May, 2019
该论文提出一种利用数据得分器来自动学习如何加权训练数据以最大化所有测试语言性能的方法,优于传统启发式方法,并提供对优化语言的灵活控制。
Apr, 2020
本研究探讨了不同的采样技术对音乐质量的影响,训练了一个高容量的变形器模型,使用概率截断采样技术分析样本的音乐特性,在优化和非优化的情况下评估了生成的样本。
Aug, 2023
通过对多个大型语言模型 (LLMs) 进行假设集成的研究,对于基于 LLM 的机器翻译问题,我们探讨了如何提高生成文本的质量。我们尝试了多种假设集成技术,如 ChatGPT、LLaMA 和 Alpaca,并进行了综合研究,包括生成假设的方法(多个提示、温度采样和束搜索)以及生成最终翻译的策略(基于指令、基于质量的重新排序和最小贝叶斯风险解码)。我们的研究结果表明,MBR 解码是一种非常有效的方法,使用少量样本可以提高翻译质量,指令调整对假设的多样性和采样温度之间的关系具有很大影响。
Oct, 2023
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
本文提出了基于置信度的定时采样策略,针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题,通过使用模型预测的置信度来量化实时模型表现,并设计了细粒度的采样策略。实验结果表明,该策略在 Transformer 模型上显著优于 Vanilla 定时采样,可以提高翻译质量和收敛速度。
Jul, 2021