- 对话生成的双层计划抽样
本文提出了一种双层预训练采样模型,结合句子级信息和单词级质量,并利用平滑函数将两者的综合结果映射到适当的范围,基于映射值进行概率采样。在 DailyDialog 和 PersonaChat 数据集上的实验证明了我们提出的方法的有效性,明显缓 - 基于标注启发的隐式语篇关系分类及辅助语篇连词生成
研究了如何在缺乏话语连词的情况下进行隐含话语关系分类,设计了一种神经网络模型,通过预测和生成连词来实现话语关系的分类。实验结果表明,在 PDTB 2.0,PDTB 3.0 和 PCC 三个数据集上,该模型明显优于其他基线模型,从而表明了该模 - 神经文本生成中的动态计划采样与模仿损失
本文介绍了一种基于 Dynamic Scheduled Sampling with Imitation Loss (DySI) 的神经文本生成模型,该模型通过引入模仿损失和动态调度表,解决了常见的曝光偏差问题,在标准机器翻译基准测试数据集上 - 具有计划抽样的 Markup-to-Image 扩散模型
基于扩散模型的数据驱动方法实现了将 Markup 转换为图像,通过实验验证了扩散过程的有效性以及调度采样算法的调整作用,同时标记到图像的任务提供了一个有用的受控组合环境,进行生成式图像模型的诊断和分析。
- EMNLP利用弹性权重整合改进计划采样用于神经机器翻译
通过系统实验,本文发现 MaxML 存在的曝光偏差问题是 “抽样计划” 的缺点,该计划加剧了当推理时间的前缀是正确的时的性能下降,即灾难性忘记。因此,提出使用 “弹性权重合并” 方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实 - EMNLP基于解码步骤的神经机器翻译定时采样
本研究提出基于解码步骤的计划采样方法,可以更真实地模拟训练过程中的推理场景,从而更好地弥合训练和推理之间的差距。实验证明,这种方法在 WMT 任务上显著优于变形金刚基线和普通计划采样,并且在两个流行基准测试中也具有很好的泛化性能。
- ACL神经机器翻译置信度感知的计划采样
本文提出了基于置信度的定时采样策略,针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题,通过使用模型预测的置信度来量化实时模型表现,并设计了细粒度的采样策略。实验结果表明,该策略在 Transformer 模型上显著优于 Va - ACL重新考虑编码器 - 解码器中的扰动以实现快速训练
研究比较序列到序列问题中常用的扰动方法,包括定期抽样、对抗性扰动、词随机替换等,结果表明速度更快的简单技术如词元删除、输入符号的随机替换等与新提出的扰动方法具有可比性或者更好的性能。
- IJCAI神经机器翻译与错误校正
本文提出了一种将错误校正机制引入神经机器翻译中的方法,通过使用两个流的自注意力机制,在保证预测下一个标记的同时,对前一个标记的错误信息进行更正,使用预测偏差模拟训练,并在多个数据集上进行了实验验证,证明了其在提高翻译质量方面的有效性。
- ICLR阿姆哈拉语抽象文本摘要
本文介绍了文本摘要的两种方法 —— 摘要加工和提纯方法,探讨了深度学习在文本摘要中的应用,深入分析了计划采样模型在如何进行摘要加工的过程中的作用。同时,本文将这种方法应用到非洲最广泛使用的语言之一 —— 阿姆哈拉语,并努力为非洲 NLP 社 - Transformer 的计划采样
该研究提出了一种双重解码策略使得计划采样技术可以应用于 Transformer 模型,以解决序列生成中出现的曝光偏置问题,该技术可大幅提高模型的性能,并表明其具有进一步探索的潜力。
- 并行计划采样
本文介绍了一种简单的方法,通过时间并行化可以减轻固定顺序随机替换预测值的 “计划采样”,并在图像生成、文本摘要、对话生成和翻译等任务中实现与传统教师强制训练相当或更好的性能。
- AAAI从 FiLM 到视频:多模态背景下的多轮问答
通过 AVSD 挑战,本文提出了一种层次化编码 - 解码模型来回答有关视频的问题,采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征,并使用 FiLM 块进行条件编码以降低维数,最终使用 LSTM 解码器通过计划采样进行 - 如何(不)训练生成模型:定时采样,似然度,对手
本篇论文针对基于深度学习的文本和图像生成模型的目标函数进行了探讨,提出了替代 maximum likelihood 训练目标函数的方法,引入了一种广义的对抗训练方法。