LLM 不确定环境下的决策行为评估框架
AI 系统需要理解我们的决策方式以便与人类有效沟通,然而人类的决策并不总是理性的,因此大型语言模型(LLMs)中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的,LLMs 在日常互动中呈现出了人类行为的可信代理。然而,通过将 LLM 的行为和预测与大量人类决策的数据集进行比较,我们发现情况实际上并非如此:在模拟和预测人类选择时,一套尖端的 LLMs(GPT-4o 和 4-Turbo,Llama-3-8B 和 70B,Claude 3 Opus)假设人们比实际更理性。具体而言,这些模型偏离了人类行为,更接近于经典的理性选择模型 - 预期值理论。有趣的是,人们在解释他人行为时也倾向于假设他人是理性的。因此,当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时,我们发现这些推理之间高度相关。因此,LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致,而不是与人们实际行动相一致。
Jun, 2024
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024
本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法,并应用此方法研究了不同语言模型中编码的道德信念,特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究,包含了 680 个道德情景(如 “我应该说一个善意的谎言吗?”)和 687 个明确的道德情景(如 “我应该在路上停车让行人通过吗?”),并对 28 个开放和闭源语言模型进行了调查。结果发现,在明确的情景中,大多数模型选择与常识一致的行动,而在模棱两可的情况下,大多数模型表达了不确定性,并且部分模型对问题的方式非常敏感,同时一些模型在模糊情景中反映出明确的偏好,尤其是闭源模型之间的一致性较高。
Jul, 2023
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了 LLMs 评估方法的有效性和未来研究的启示。
Feb, 2024
我们提出了一种名为 BOLT 的新型计算框架,用于研究大型语言模型(LLMs)在担任治疗师角色时的对话行为。我们开发了一种上下文学习方法,定量测量 LLMs 的行为,基于包括反映、提问、解决方案、正常化和心理教育在内的 13 种不同的心理治疗技术。我们通过比较 LLM 治疗师与高、低质量人类治疗师的行为,并研究如何调整其行为以更好地体现高质量治疗中观察到的行为,发现 LLMs 的行为更接近低质量治疗,需要进一步研究来确保质量治疗。
Jan, 2024
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024
这项研究引入了一种新的框架,金融偏见指标(FBI),来对大型语言模型(LLMs)的金融合理性进行评估,重点是它们辨识和应对金融信息中微妙之处的能力,以及发现可能会偏向市场分析的非理性偏见。研究采用创新方法来衡量金融合理性,整合行为金融学的原则来审视 LLMs 的偏见和决策模式,并对 19 个主要 LLMs 进行全面评估,结果显示模型之间存在不同程度的金融非理性,受到设计和训练的影响。这项研究丰富了我们对 LLMs 在金融应用中的优势和弱点的认识,为开发更可靠和理性的金融分析工具奠定了基础。
Feb, 2024
当 LML(大型语言模型)在各个领域中深入应用时,了解它们如何做出道德判断变得至关重要,特别是在自动驾驶领域。本研究利用 Moral Machine 框架,调查了几个重要 LML(包括 GPT-3.5,GPT-4,PaLM 2 和 Llama 2)的道德决策倾向,并将它们与人类偏好进行比较。虽然 LML 和人类的偏好在许多方面保持一致,如优先考虑人类而非宠物,倾向于拯救更多生命,但尤其是 PaLM 2 和 Llama 2 表现出明显的差异。此外,尽管 LML 和人类的偏好在质的方面相似,但在量的方面存在显著差异,这表明相较于人类的温和偏向,LML 可能更倾向于更坚决的决策。这些发现揭示了 LML 的道德框架,以及它们对自动驾驶的潜在影响。
Sep, 2023
近期自然语言处理的进展,特别是大型语言模型(LLMs)的出现,为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而,LLMs 是复杂的统计学习器,缺乏直接的演绎规则,因此容易产生意想不到的行为。本研究突出了 LLMs 在模拟人类互动方面的局限性,特别关注 LLMs 在模拟政治辩论方面的能力。我们的发现表明,尽管被指示从特定的政治角度进行辩论,LLM 代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离,似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果,该方法使我们能够操纵 LLM 内的偏见,并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性,以开发帮助代理克服这些偏见的方法,是创造更现实模拟的关键一步。
Feb, 2024