Dec, 2023

FoMo 奖励:我们能否将基础模型视为奖励函数?

TL;DR我们探索将基础模型作为增强学习的通用奖励函数的可行性,为此我们提出了一个简单的流程,通过将现成的视觉模型与大型语言模型进行接口连接,推断给定的观察轨迹中描述用户期望代理程序执行的任务的指令的可能性,展示了这种通用可能性函数体现了预期的奖励函数特性,它将高值与期望行为相关联,并为多个相似但不正确的策略给出较低值,总体上,我们的工作开辟了通过基础模型设计交互任务的无限代理的可能性。