模拟专家角色引导场景:一种执行认知工作的卓越策略
大型语言模型(LLMs)作为数据增强系统在人机交互研究中可用于创建合成人物,以解决黑盒特性和幻觉倾向带来的挑战,并提出了发展鲁棒性认知和记忆框架以指导 LLM 响应的构想。初步探索表明,数据丰富、情景记忆和自我反思技术可以提高合成人物的可靠性,为人机交互研究开辟新途径。
Apr, 2024
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
使用大型语言模型(LLMs)和个性变量在现有主观 NLP 数据集中模拟不同视角方面,发现个性变量通过提示在 LLMs 中的应用能提供适度的改善,但在解释人类标注中的作用较低(<10%)时,个性提示的效果很小,这对当前 NLP 领域中模拟多样性的可行性产生了质疑。
Feb, 2024
在本文中,我们探讨了大型语言模型(LLMs)在复杂人类系统中的推理能力,并提出了一种新的推理框架 ——“Mosaic Expert Observation Wall”(MEOW),利用生成型代理模拟技术。通过模拟数据训练一个专家模型,该模型在每个独立的模拟时间中专注于某个特定任务的 “经验”,通过模拟积累的 “经验” 使其成为复杂人类系统中某个任务的专家。我们在模拟真实世界安全场景的通信游戏中进行了实验,结果表明我们提出的方法可以与现有方法协同工作,增强大型语言模型在复杂人类系统中的推理能力。
Mar, 2024
该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
大型语言模型(LLMs)可以用作代理来模拟人类行为,具备理解人类指令和生成高质量文本的强大能力。本研究旨在训练一个代理,拥有特定人物的个人资料、经历和情感状态,而不是使用有限的提示来指导 ChatGPT API。为了评估我们方法的有效性,我们建立了一个测试场,对训练的代理进行面试并评估其是否记忆了所扮演的角色和经历。实验结果呈现有趣的观察结果,有助于构建未来人类的模拟体。
Oct, 2023
大规模语言模型在大量文本语料库上进行训练,这些文本语料库编码了各种个性特质。本文提出了一种新的基于贝叶斯推断的个性提取框架 PICLe,旨在使语言模型的行为与目标个性相一致。通过与基准方法在三个当代语言模型上进行广泛比较,我们证明了 PICLe 的有效性。
May, 2024
大型语言模型在决策中是否可以替代人类是一个近期的研究课题。本研究中,我们通过使用高质量小说中的人物分析数据构建了 LIFECHOICE 数据集,并进行了多项实验,研究了 LLMs 在以人物为驱动的决策中的能力。结果表明,目前的 LLMs 在此任务中显示出有希望的能力,但仍有很大的改进空间。因此,我们进一步提出了基于人物记忆检索的 CHARMAP 方法,通过该方法可以获得 6.01%的准确率提升。我们将公开提供我们的数据集和代码。
Apr, 2024
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023