通过虚构作品进行人物建模评估大型语言模型的人物理解能力

Apr, 2024

通过虚构作品进行人物建模评估大型语言模型的人物理解能力

Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works

Xinfeng Yuan, Siyu Yuan, Yuhan Cui, Tianhe Lin, Xintao Wang...

TL;DR我们提出使用角色概况任务来评估大型语言模型（LLMs）的角色理解能力，通过从对应的材料中总结角色概况，构建 CroSS 数据集并比较与下游任务的适用性，我们的实验结果强有力地验证了 LLMs 的角色理解能力，并且我们相信我们构建的资源将促进该领域的进一步研究。

Abstract

large language models (LLMs) have demonstrated impressive performance and spurred numerous AI applications, in which role-playing agents (RPAs) are particularly popular, especially for fictional characters. The p

large language models role-playing agents character understanding character profiling summarization methods

发现论文，激发创造

基于大型语言模型的特征化人工智能代理

大语言模型在构建特色人工智能代理方面的性能评估以及自动度量指标的定量评估，突显了进一步提高大语言模型在构建特色人工智能代理方面能力的潜在方向。

Mar, 2024

捕捉思维，而非语言：使用个性指示数据增强角色扮演语言模型

我们通过应用特征性数据提升小型角色扮演语言模型，实验证明使用我们的数据集训练的模型在一般和与个性相关的评估中展现了高级角色扮演能力。

Jun, 2024

大型语言模型对词汇的字符组成缺乏理解

该研究论文通过分析现代大型语言模型对字组成的理解能力，并与词级性能进行比较，展示了大多数大型语言模型无法可靠地完成甚至是人类能够完美处理的简单任务，进而讨论了未来研究的潜在方向。

May, 2024

人物塑造命运：大型语言模型能否模拟以角色扮演为驱动的决策？

大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中，我们通过使用高质量小说中的人物分析数据构建了 LIFECHOICE 数据集，并进行了多项实验，研究了 LLMs 在以人物为驱动的决策中的能力。结果表明，目前的 LLMs 在此任务中显示出有希望的能力，但仍有很大的改进空间。因此，我们进一步提出了基于人物记忆检索的 CHARMAP 方法，通过该方法可以获得 6.01％的准确率提升。我们将公开提供我们的数据集和代码。

Apr, 2024

角色扮演的可训练代理 - Character-LLM

大型语言模型（LLMs）可以用作代理来模拟人类行为，具备理解人类指令和生成高质量文本的强大能力。本研究旨在训练一个代理，拥有特定人物的个人资料、经历和情感状态，而不是使用有限的提示来指导 ChatGPT API。为了评估我们方法的有效性，我们建立了一个测试场，对训练的代理进行面试并评估其是否记忆了所扮演的角色和经历。实验结果呈现有趣的观察结果，有助于构建未来人类的模拟体。

Oct, 2023

RoleLLM：大型语言模型角色扮演能力的基准、激发和增强

RoleLLM 是一种框架，用于在大规模语言模型中评估和增强角色扮演能力。通过 Context-Instruct 和 RoleGPT，我们创建了 RoleBench，这是角色扮演的第一个系统性和细致的基于角色的基准数据集，该数据集包含 168,093 个样本。此外，通过 RoleBench 上的 RoCIT，我们获得了 RoleLLaMA（英文）和 RoleGLM（中文），显著增强了角色扮演的能力，甚至与使用 GPT-4 的 RoleGPT 的结果相当。

Oct, 2023

角色扮演的模版框架：生成与评估

使用大型语言模型（LLM）构建角色扮演对话数据集并评估性能的框架，并使用召回导向的 Rouge-L 指标支持 LLM 评估器的结果。

Jun, 2024

大型语言模型中的人格特质

本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性，并讨论了如何对这些模型进行塑造的潜在应用和伦理影响，特别是关于负责任地使用 LLM。

Jul, 2023

从文学角度评估大型语言模型的创造力

该研究通过一个深入的案例研究，评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略，交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论，并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。

Nov, 2023

大型语言模型：多样的角色扮演者用于摘要评估

本文提出了一种新的评估框架，基于 LLMs，并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件，并根据批处理提示设计了多角色扮演者提示技术，以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明，该模型非常具有竞争力，且与人类注释者具有非常高的一致性。

Mar, 2023