大型语言模型中用于阿瓦隆游戏中的角色识别的长时对话理解

EMNLPNov, 2023

大型语言模型中用于阿瓦隆游戏中的角色识别的长时对话理解

Long-Horizon Dialogue Understanding for Role Identification in the Game of Avalon with Large Language Models

Simon Stepputtis, Joseph Campbell, Yaqi Xie, Zhengyang Qi, Wenxin Sharon Zhang...

TL;DR利用社交推理游戏 Avalon: The Resistance 中的欺骗行为和多方对话测试大型语言模型（LLMs）的能力和性能。

Abstract

deception and persuasion play a critical role in long-horizon dialogues between multiple parties, especially when the interests, goals, an

deception persuasion dialogues avalon: the resistance llms

发现论文，激发创造

从文本到战术：评估玩阿瓦隆游戏的 LLMs

研究论文中探索了大型语言模型在社交推理游戏《反抗之巅》中的潜力，并介绍了 AvalonBench 测试环境，用于评估多代理模型的决策和语言处理能力。实验结果显示了模型在该游戏环境中存在的性能差距，进而提出了开发更先进的自我学习模型和代理框架来模拟这类复杂游戏环境的设想。

Oct, 2023

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023

阿瓦隆的思想游戏：通过递归思考对抗欺骗

使用迷惑性信息鉴别和应对的新框架 Recursive Contemplation（ReCon）提高了大型语言模型在识别和操纵具有迷惑性信息方面的能力，测试使用了迷宫游戏 Avalon 进行了广泛实验，证明了 ReCon 的有效性，无需额外的微调和数据。

Oct, 2023

人物塑造命运：大型语言模型能否模拟以角色扮演为驱动的决策？

大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中，我们通过使用高质量小说中的人物分析数据构建了 LIFECHOICE 数据集，并进行了多项实验，研究了 LLMs 在以人物为驱动的决策中的能力。结果表明，目前的 LLMs 在此任务中显示出有希望的能力，但仍有很大的改进空间。因此，我们进一步提出了基于人物记忆检索的 CHARMAP 方法，通过该方法可以获得 6.01％的准确率提升。我们将公开提供我们的数据集和代码。

Apr, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

评估 LLM 代理商的非常长期对话记忆

通过使用基于 LLM 的代理体系结构和将对话与人物和时间事件图进行关联，我们介绍了一个机器 - 人类管道来生成高质量的非常长期的对话，并通过人类注释者对其进行检验和编辑，以确保其长程一致性和对事件图的关联。通过这个管道，我们收集了一个包含 300 个回合和平均 9K 个记号的非常长期对话的数据集。基于该数据集，我们提出了一个全面的评估基准来衡量模型中的长期记忆，在问题回答、事件摘要和多模态对话生成任务方面。我们的实验结果表明，LLM 在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文 LLM 或 RAG 等策略可以提供改进，但这些模型仍然远远落后于人类的性能。

Feb, 2024

再次问候！基于 LLM 的个性化长期对话代理

开放域对话系统的关键是提供长期陪伴和个性化互动，长期对话代理 (LD-Agent) 模型可以通过事件概括和个性化管理模块，增强自动化认知和问题解决能力。

Jun, 2024

促进大型语言模型在在线求职和招聘中的多角色和多行为协作

在线招聘服务的出现已经彻底改变了求职和招聘的传统模式，本研究致力于提高个人与职业的匹配度，通过引入模拟面试的过程，从而为候选人评估提供额外的证据，增强了传统基于简历和职位描述的人 - 职位匹配方式。提出了一种创新可行的模拟面试框架 MockLLM，通过面试生成和握手协议中的双方评估两个模块，通过让面试官和候选人之间协同行为来提高其性能，同时设计一种多角色和多行为的角色扮演框架，使单个语言模型代理能够以多个功能有效地与双方交互。此外，还提出了反思记忆生成和动态提示修改技术，以改进双方的行为，实现对增强的额外证据的持续优化。详细的实验结果表明，MockLLM 在人 - 职位匹配和模拟面试质量方面表现出了最佳性能，展示了其在未来在线招聘中的应用前景。

May, 2024

LoHoRavens: 一项长视程语言引导的机器人桌面操纵基准

本研究基于体验工具人和大型语言模型的融合，在长时序任务中通过引入颜色、尺寸、空间、算术和参考等多个方面的推理来进行桌面操作，提出了一个模拟基准测试过程，同时探索通过标题生成和可学习接口来弥合模态差距，以改进当前流行模型在长时序桌面操作任务中的表现。

Oct, 2023

上下文中的模拟揭示了大型语言模型的实力和偏见

研究表明，LLMs 能够在上下文中扮演不同的角色，这种扮演可以揭示它们的潜在优势和偏见。

May, 2023