Oct, 2016

利用神经机器翻译实现反强化学习导航指令生成

TL;DR该研究提出了一种导航指南模型,使机器人能够生成自然语言指令,帮助人们在事先未知的环境中进行导航,该模型使用人类演示数据通过反向强化学习训练决策策略,并通过神经序列到序列模型从自然语料库中生成自由形式的语句,实验测评表明,在与人类参考指令进行比较时,该方法获得了 72.18% 的 BLEU 分数,并且缩小了人类与机器人交互时的差距。