再次问候!基于 LLM 的个性化长期对话代理
通过使用基于 LLM 的代理体系结构和将对话与人物和时间事件图进行关联,我们介绍了一个机器 - 人类管道来生成高质量的非常长期的对话,并通过人类注释者对其进行检验和编辑,以确保其长程一致性和对事件图的关联。通过这个管道,我们收集了一个包含 300 个回合和平均 9K 个记号的非常长期对话的数据集。基于该数据集,我们提出了一个全面的评估基准来衡量模型中的长期记忆,在问题回答、事件摘要和多模态对话生成任务方面。我们的实验结果表明,LLM 在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文 LLM 或 RAG 等策略可以提供改进,但这些模型仍然远远落后于人类的性能。
Feb, 2024
为了解决 Open Domain 对话模型在长时间对话中缺乏理解和记忆能力的问题,我们提出了一种新的任务 —— 长期记忆对话(LeMon),并构建了一个具备长期记忆机制的对话生成框架(PLATO-LTM ),允许系统在不需要多个会话数据集进行模型训练的情况下,准确提取和持续更新长期个人记忆。在 DuLeMon 的结果表明,PLATO-LTM 在长期对话一致性方面可以显著优于基线,从而导致更好的对话互动。
Mar, 2022
该研究提出一种框架,将用户个性化纳入对话代理中,通过分析和组织用户的查询和响应形成结构化用户资料,以提供个性化和更精确的响应,并提出了一系列评估协议来衡量个性化程度。
Apr, 2024
本文研究了长期对话系统中响应生成的任务,评估了通用的 Pre-trained Language Models(PLM)在此目的上的适用性,并利用人的评估对自然语言生成错误进行分类。
May, 2023
利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力,以推进人工智能 (AGI) 的发展,并提供了 LLM 基础的游戏智能体的综述,包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分,调研了六种游戏类型的现有代表性 LLM 基础游戏智能体,并展望了未来的研究和发展方向。
Apr, 2024
大型语言模型(LLMs)正在改变人工智能,使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力,有望在从客户服务到医疗保健等各个领域引发革命。然而,它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索,以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展,预计它们将成为我们数字生活中不可或缺的一部分,协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。
Apr, 2024
使用大型语言模型递归生成摘要 / 记忆,从而提高长期记忆能力,进而解决开放领域对话系统中遗忘重要信息的问题。实验证明,该方法可以在长对话环境中生成更加一致的回应。
Aug, 2023
通过使用参数高效的微调模式和计算仿生记忆机制,我们提出了一种新颖的个人化大语言模型方法,该方法在用户导向的生成任务中展示了卓越的效果和优越性能。
Sep, 2023
社交机器人研究者对于多方训练的对话代理越来越感兴趣。本研究在爱丁堡节的一个月长的现场表演中使用大型语言模型(LLMs),调查了在职业剧院环境中,人类演员如何与对话代理合作创作。我们探索了即兴多方对话的技术能力和限制,并从观众和表演者的经验中提供了全面的见解。我们的 “人在环环” 的方法强调了这些 LLMs 在生成与上下文相关的回复方面的挑战,并强调了用户界面的关键作用。观众的反馈表明了对 AI 驱动的现场娱乐、人机直接互动以及对 AI 在创造力支持工具方面多样化的期望。人类演员表达了巨大的热情和不同程度的满意度,而不断演变的公众舆论则凸显了人们对于 AI 在艺术中的角色的复杂情感。
May, 2024
通过多智能体协作的方法,我们提出了一种名为 LongAgent 的方法,将大型语言模型(例如 LLaMA)的上下文窗口扩展到 128K,并在长文本处理方面展示了相对于 GPT-4 的潜在优势。LongAgent 中,一个领导者负责理解用户意图并指导团队成员从文档中获取信息。通过开发一种成员间的信息共享机制来解决因幻觉引起的回应冲突,我们的实验结果表明 LongAgent 在长文本处理方面提供了一种有希望的选择。使用 LLaMA-7B 实例化的智能体团队相较于 GPT-4 在 128k 长文本检索、多跳问题回答等任务中取得了显著的改进。
Feb, 2024