May, 2023

利用自我博弈和从 AI 反馈中学习的上下文增强语言模型的协商技能

TL;DR本文研究了大型语言模型之间在协商游戏中通过玩耍、反思和批判是否能自主地相互提高。我们使用不同的 LLMs (GPT 和 Claude) 来不同的角色,使用交易价格作为评估指标,让两个代理商进行多轮游戏,使用先前的谈判历史和 AI 反馈作为上下文演示,迭代地改进模型的谈判策略。我们希望我们的工作为语言模型间自主改进提供了初步的探索。