Dec, 2022

基于实时反馈的指令跟随持续学习

TL;DR通过人机协作交互提供的实时二元反馈,用自然语言训练指令遵从代理的问题被研究。将学习作为一种上下文医师问题,将用户反馈转换为立即奖励,证明了其在提高指令执行效果方面具有优势,并且反馈信号与监督式演示数据的学习信号基本等价。