Nov, 2022

利用人类反馈的强化学习来提升多模态交互代理

TL;DR使用人类反馈的强化学习方法,通过记录人类与模拟世界中的代理进行交互,构建能够自然交互和学习的代理行为,有效提高了代理在复杂领域中的行为表现。