Jul, 2024

超越数值奖励:带有 LLM 代理的上下文对决

TL;DR在 Dueling Bandits 情境中,本文研究了 Large Language Models (LLMs) 作为决策者的表现,并引入了一个增强算法 IF-Enhanced LLM,该算法结合了 LLMs 的上下文决策能力和经典 DB 算法的理论保证,以提高 LLMs 在做决策任务时的可信度和性能鲁棒性。