AAAISep, 2020

从语言反馈中学习奖励

TL;DR本研究采用自然语言反馈作为人工智能代理的学习信号,使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数,来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习,并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。