Jul, 2024

AMONGAGENTS:评估大型语言模型在互动文本社交推理游戏中的表现

TL;DR本研究解决了评估语言模型在社交推理游戏中的理解和推理能力的缺口,采用名为AmongAgents的文本游戏环境模拟人类行为。研究发现,最先进的大型语言模型能够有效理解游戏规则,并根据当前情境做出决策,这为未来在复杂行动空间中评估语言模型性能提供了新方向。