ACLMay, 2018

人类赌徒反馈在序列到序列强化学习中的可靠性和可学习性

TL;DR探索了来自人的 bandit 反馈对强化学习的影响,用神经机器翻译作为样例。研究表明标准化的评级反馈是最可靠的,且可以通过训练出的回归模型进行序列学习从而更好地进行强化学习。