EMNLPJul, 2017

基于强化学习的神经机器翻译波段信道模型仿真人反馈

TL;DR本文提出了一种使用虚拟的人类反馈数据,通过强化学习算法,结合基于注意力机制的神经编码解码架构,优化神经机器翻译系统的方法。该算法适用于大动作空间和延迟回报的问题,并能有效优化传统机器翻译测量指标。