CoMPosT: LLM 模拟中描绘和评估卡通画
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
本文介绍了大语言模型(LLMs)是如何呈现出与不同价值观和个性特质相关的不同视角,认为 LLMs 是一系列具有不同价值观和人格特质的透视。在实验中,研究者使用心理学问卷(PVQ,VSM,IPIP)来研究模型表现的价值观和个性特质如何因不同视角而变化。通过定性和定量实验,研究者证明了 LLMs 在不同情境下表达不同的价值观和人格特质,并且探讨了多种相关的科学问题。
Jul, 2023
大型语言模型(LLMs)可以用作代理来模拟人类行为,具备理解人类指令和生成高质量文本的强大能力。本研究旨在训练一个代理,拥有特定人物的个人资料、经历和情感状态,而不是使用有限的提示来指导 ChatGPT API。为了评估我们方法的有效性,我们建立了一个测试场,对训练的代理进行面试并评估其是否记忆了所扮演的角色和经历。实验结果呈现有趣的观察结果,有助于构建未来人类的模拟体。
Oct, 2023
该研究使用大型语言模型 (Large language models) 和模拟人物 (Simulated personae) 来强化人类常识与认知,展现专家行为的力量,其中包括挑战 LLM 回应的准确度以及复现量子光学领域的最新研究结果。
Jun, 2023
大型语言模型(LLMs)的人类化行为在文本交互中愈发明显,尝试使用原本为人类设计的测试来评估模型的各种特性已变得流行起来。然而,需要仔细调整这些测试,以确保测试结果在人类亚群中的有效性。因此,不清楚不同测试的有效性能够推广到 LLMs 的程度。本研究提供证据表明,LLMs 对个性测试的反应与典型人类反应存在系统偏差,意味着这些结果不能像人类测试结果一样进行解释。具体来说,LLMs 经常同时肯定地回答出了反向编码项目(例如,“我是内向的” 与 “我是外向的”)。此外,设计用于 “引导” LLMs 模拟特定的个性类型的不同提示的变化并不遵循人类样本中五个独立个性因素的明确分离。考虑到这些结果,我们认为在对类似 LLMs “个性” 这样定义模糊的概念进行强有力的结论之前,应更加关注对 LLMs 的测试有效性。
Nov, 2023
本文通过用自我报告问卷(BFI)评估和语言分析等方法,在大型语言模型(LLMs)中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色,研究 LLM 角色生成的内容是否优点定制的特质,并对其可应用于人工智能会话的前景进行了展望。
May, 2023
本文提出了一种新的评估框架,基于 LLMs,并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度,并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件,并根据批处理提示设计了多角色扮演者提示技术,以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明,该模型非常具有竞争力,且与人类注释者具有非常高的一致性。
Mar, 2023