神经序列到序列学习的赌博式结构化预测

Apr, 2017

神经序列到序列学习的赌博式结构化预测

Bandit Structured Prediction for Neural Sequence-to-Sequence Learning

Julia Kreutzer, Artem Sokolov, Stefan Riezler

TL;DR该研究提出利用递归神经网络中的注意力机制将线性bandit学习推广到神经序列到序列学习问题中，并介绍如何将控制变量结合到学习算法中以实现方差缩减和改进推广，通过对神经机器翻译任务的评估，表明通过领域适应和模拟bandit反馈可实现高达5.89 BLEU点的改进。

Abstract

bandit structured prediction describes a stochastic optimization framework where learning is performed from partial feedback. This feedback is received in the form of a task loss evaluation to a predicted output