Mar, 2024

通过将一个全局显式注释分解为本地隐式多模态反馈以提升对话代理

TL;DR本研究通过全局(即对话级别)奖励来对齐基于 LLM 的对话代理,并考虑自然出现的多模态信号。该方法学习了一个本地的、以轮为单位的奖励模型,通过分解人工提供的全局显式(GE)会话级奖励,使用本地隐式(LI)多模态奖励信号来跨模态地塑造奖励分解步骤。这个分解的奖励模型然后作为标准 RHLF 流程的一部分,以提高基于 LLM 的对话代理的性能。我们进行了定量和定性的人类研究来评估我们的 GELI 方法的性能,并发现相比基准方法,在各种对话指标上都显示出了一致的改进。