Apr, 2017

神经序列到序列学习的赌博式结构化预测

TL;DR该研究提出利用递归神经网络中的注意力机制将线性bandit学习推广到神经序列到序列学习问题中,并介绍如何将控制变量结合到学习算法中以实现方差缩减和改进推广,通过对神经机器翻译任务的评估,表明通过领域适应和模拟bandit反馈可实现高达5.89 BLEU点的改进。