Jul, 2023

Tachikuma:大型语言模型理解多角色和新颖对象的复杂交互

TL;DR最近自然语言和大型语言模型的进展使得AI代理能够模拟人类一样的虚拟世界内互动,但是这些互动在复杂性和灵活性方面仍然存在限制,特别是涉及多个角色和新颖对象的场景。为了解决这些问题,我们提出将虚拟游戏主持人整合到代理的世界模型中,借鉴桌面角色扮演游戏的灵感。这个模型可以解决目前世界模型的不足之处,向代理提供信息,估计玩家的意图,提供环境描述和反馈。为了帮助未来探索复杂互动,我们引入了一个名为Tachikuma的基准测试,它包括一个基于多角色和新颖对象交互估计的任务(MOE)和一个支持的数据集。MOE挑战模型理解角色的意图,并准确判断它们在涉及多角色和新颖对象互动的复杂环境中的行动。此外,该数据集捕捉了游戏过程中实时通信的日志数据,为进一步研究提供了多样、有根据的和复杂的互动。最后,我们提出了一个简单的提示基线,并评估其性能,证明其在增强交互理解方面的有效性。我们希望我们的数据集和任务能够激发关于自然语言复杂互动的更多研究,促进更先进的AI代理的发展。