EMNLPAug, 2018

基于策略的强化学习在 20 问题游戏中的应用

TL;DR本文提出了一种新的基于策略的强化学习方法,通过与用户的持续交互,使提问者代理学习到最优的问题选择策略。与以往方法相比,我们的强化学习方法对嘈杂的答案具有鲁棒性,不依赖于物品的知识库,在无噪音的模拟环境中具有竞争力的表现。