基于大型语言模型的特征化人工智能代理
大型语言模型(LLMs)可以用作代理来模拟人类行为,具备理解人类指令和生成高质量文本的强大能力。本研究旨在训练一个代理,拥有特定人物的个人资料、经历和情感状态,而不是使用有限的提示来指导 ChatGPT API。为了评估我们方法的有效性,我们建立了一个测试场,对训练的代理进行面试并评估其是否记忆了所扮演的角色和经历。实验结果呈现有趣的观察结果,有助于构建未来人类的模拟体。
Oct, 2023
我们提出使用角色概况任务来评估大型语言模型(LLMs)的角色理解能力,通过从对应的材料中总结角色概况,构建 CroSS 数据集并比较与下游任务的适用性,我们的实验结果强有力地验证了 LLMs 的角色理解能力,并且我们相信我们构建的资源将促进该领域的进一步研究。
Apr, 2024
本文研究了大型语言模型(LLM)与传统人工智能代理之间的核心区别和特征,着重比较了两种代理的基本特征,并阐明了 LLM 代理在处理自然语言、知识存储和推理能力方面的显著优势。随后,对 AI 代理的核心组成部分进行了深入分析,包括规划、记忆和工具使用。尤其对于关键的记忆组件,本文引入了创新的分类方案,不仅摆脱了传统的分类方法,还为 AI 代理的记忆系统设计提供了新的视角。我们坚信对这些核心组件的深入研究和理解将为 AI 代理技术的未来发展奠定坚实的基础。在文章结尾,我们提供了进一步研究的指导性建议,希望能为该领域的学者和研究人员提供有价值的见解。
Sep, 2023
通过对基于大语言模型的自主代理的综合调查,本文提出了一个统一框架来概括以往研究,并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时,我们还讨论了该领域的挑战和未来方向。
Aug, 2023
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
大型语言模型(LLMs)正在改变人工智能,使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力,有望在从客户服务到医疗保健等各个领域引发革命。然而,它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索,以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展,预计它们将成为我们数字生活中不可或缺的一部分,协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。
Apr, 2024
人工智能代理是一个前景光明的领域,利用大型语言模型作为基础构建通用人工智能代理带来了显著的进展,其在单一代理场景、多代理场景以及人机合作中的广泛应用展示了卓越的潜力,并为人类社会提供了有价值的见解。
Sep, 2023
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中,我们通过使用高质量小说中的人物分析数据构建了 LIFECHOICE 数据集,并进行了多项实验,研究了 LLMs 在以人物为驱动的决策中的能力。结果表明,目前的 LLMs 在此任务中显示出有希望的能力,但仍有很大的改进空间。因此,我们进一步提出了基于人物记忆检索的 CHARMAP 方法,通过该方法可以获得 6.01%的准确率提升。我们将公开提供我们的数据集和代码。
Apr, 2024
该研究探讨了大型语言模型(LLMs)利用心理测量值,特别是人格信息,在视频游戏角色开发中的潜力。利用情感计算(AC)系统量化非玩家角色(NPC)的心智,LLM 可以利用该系统的信息通过使用这些数值来生成提示。研究表明 LLM 可以持续地代表给定的人格轮廓,从而增强游戏角色的人类特征。通过重新设计人类检查方法,例如国际人格项目库(IPIP)问卷,来评估 LLM,显示模型可以准确生成与所提供人格有关的内容。结果显示,改进的 LLM,如最新的 GPT-4 模型,可以持续地利用和解释人格以代表行为。
Feb, 2024