AI文本生成：可操控性研究

Aug, 2023

AI Text-to-Behavior: A Study In Steerability

David Noever, Sam Hyams

TL;DR文中研究探讨了大型语言模型（LLMs），尤其是OpenAI的ChatGPT系列的可操控性。通过采用行为心理学框架—OCEAN（开放性、责任心、外向性、宜人性、神经质），我们定量评估了模型对定制提示的响应能力。当被要求生成模拟外向人格特征的文本时，OCEAN评分与该行为特征的语言对齐程度相关。在我们的分析中，虽然“开放性”呈现出语言上的模糊性，但“责任心”和“神经质”在OCEAN框架中明显地被唤起，而“外向性”和“宜人性”则显示出明显的重叠但与其他特征有所区别。我们的研究强调了GPT的多功能性和辨别和适应微妙指令的能力。此外，历史人物模拟突显了大型语言模型内化和投射可教商的角色的能力，精确地复制他们的哲学和对话风格。然而，大型语言模型能力的快速提升和一些训练技术的不透明性使度量提案迅速退化。我们的研究强调了量化角色在描述大型语言模型的可操控性方面的作用，同时提出了进一步完善的领域，以使其进展与人类意图相一致。

Abstract

The research explores the steerability of large language models (LLMs), particularly OpenAI's ChatGPT iterations. By employing a behavioral psychology framework called OCEAN (Openness, Conscientiousness, Extrover