多任务学习自适应调度

Sep, 2019

Adaptive Scheduling for Multi-Task Learning

Sébastien Jean, Orhan Firat, Melvin Johnson

TL;DR研究了不同的任务调度方法以在多个任务（语言）上同时训练神经机器翻译模型，包括现有的非自适应技术和自适应调度技术，并考虑了隐式调度技术。这些方法使得多语言模型在低资源语言对（少量数据的任务）中表现更好，同时最小化对高资源任务的负面影响。

Abstract

To train neural machine translation models simultaneously on multiple tasks (languages), it is common to sample each task uniformly or in proportion to dataset sizes. As these methods offer little control over performance trade-offs, we explore different →

neural machine translation multilingual models task scheduling adaptive schedules implicit schedules

发现论文，激发创造

神经机器翻译置信度感知的计划采样

本文提出了基于置信度的定时采样策略，针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题，通过使用模型预测的置信度来量化实时模型表现，并设计了细粒度的采样策略。实验结果表明，该策略在 Transformer 模型上显著优于 Vanilla 定时采样，可以提高翻译质量和收敛速度。

Jul, 2021

神经对话翻译的多任务学习调度

该研究提出了一种基于多任务学习的计划框架以有效提升神经聊天翻译（NCT）的翻译质量，通过加入第二个预训练阶段和调度对话相关辅助任务的方法将大规模领域内的聊天翻译数据融入训练，进一步提高了主要聊天翻译任务的效果。经实验证明，该方法在四个语言方向上都表现出优异的性能，同时该研究已经公开了大规模领域内配对的双语对话数据集。

May, 2022

POS 标记器构建中的自适应采样自适应调度

我们引入了自适应调度的自适应采样作为构建词性标注器机器学习的一种新方法，目标是加速在大数据集上的训练，同时不显著损失性能。我们的算法通过分析学习曲线的形状几何特征，结合功能模型，在任何时间点上增加或减少采样间隔，从而证明了其在理论上的正确性。此外，通过更加关注训练数据中性能暂时膨胀的区域，我们提高了采样的鲁棒性，防止学习过早停止。该提议经过可靠性评估，验证了模型收敛性，符合我们的预期。虽然测试时使用了具体的停止条件，但用户可以根据自己的特定需求选择任何条件。

Feb, 2024

时序学习的时间相关任务调度

本文介绍了一种可学习的调度程序，用于序列学习，可适应地选择辅助任务以提高主任务的性能，通过双层优化联合训练，实验证明该方法显着提高了同时机器翻译和股票趋势预测的性能。

Jul, 2020

多语言神经机器翻译的平衡训练

该论文提出一种利用数据得分器来自动学习如何加权训练数据以最大化所有测试语言性能的方法，优于传统启发式方法，并提供对优化语言的灵活控制。

Apr, 2020

定时多任务学习：从句法到翻译

提出了一种神经编码器 - 解码器机器翻译模型框架，该模型开始交替学习语法和翻译，逐渐将重点放在翻译上，实现了在相对较大的平行语料库（WMT14 英语到德语）和低资源（WIT 德语到英语）设置中的 BLEU 得分显着提高。

Apr, 2018

基于解码步骤的神经机器翻译定时采样

本研究提出基于解码步骤的计划采样方法，可以更真实地模拟训练过程中的推理场景，从而更好地弥合训练和推理之间的差距。实验证明，这种方法在 WMT 任务上显著优于变形金刚基线和普通计划采样，并且在两个流行基准测试中也具有很好的泛化性能。

Aug, 2021

基于深度多任务学习的双语稀缺情境神经机器翻译

本文提出了一种基于多任务学习方法，利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题，并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中，实现了在英法、英波斯和英越三种翻译任务上的有效性验证。

May, 2018

神经网络语言模型的增量适应策略

本文提出了两种优化神经网络语言模型适应新数据的方法，包括在重新采样数据上进行继续训练或插入适应性层。在 CAT 环境中应用于 SMT 系统中，这两种方法均取得了显著的改进。

Dec, 2014

并行计划采样

本文介绍了一种简单的方法，通过时间并行化可以减轻固定顺序随机替换预测值的 “计划采样”，并在图像生成、文本摘要、对话生成和翻译等任务中实现与传统教师强制训练相当或更好的性能。

Jun, 2019