Jul, 2024

超越数值奖励:带有LLM代理的上下文对决

TL;DR在Dueling Bandits情境中,本文研究了Large Language Models (LLMs)作为决策者的表现,并引入了一个增强算法IF-Enhanced LLM,该算法结合了LLMs的上下文决策能力和经典DB算法的理论保证,以提高LLMs在做决策任务时的可信度和性能鲁棒性。