LLM 不确定环境下的决策行为评估框架

Jun, 2024

LLM 不确定环境下的决策行为评估框架

Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context

Jingru Jia, Zehua Yuan, Junhao Pan, Paul McNamara, Deming Chen

TL;DR在不确定性下做决策时，个体往往偏离理性行为，这可以通过风险偏好、概率权重和损失规避三个维度进行评估。本文提出基于行为经济学的框架，评估大型语言模型（LLMs）的决策行为，结果显示 LLMs 通常表现出类似于人类的行为模式，如风险规避和损失规避，并且倾向于高估小概率。然而，不同的 LLMs 在表达这些行为的程度上存在显著差异。此外，研究还探讨了当 LLMs 嵌入社会人口学特征时的行为，并发现存在显著差异。因此，本研究倡导制定标准和指南，确保 LLMs 在提升复杂决策环境中的效用的同时，遵守伦理规范和尽量减少潜在偏见。

Abstract

When making decisions under uncertainty, individuals often deviate from rational behavior, which can be evaluated across three dimensions: risk preference, probability weighting, and loss aversion. Given the widespread use of large language models (LLMs) in →

decision-making large language models behavioral economics risk aversion ethical implications

发现论文，激发创造

大型语言模型假设人类比实际更加理性

AI 系统需要理解我们的决策方式以便与人类有效沟通，然而人类的决策并不总是理性的，因此大型语言模型（LLMs）中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的，LLMs 在日常互动中呈现出了人类行为的可信代理。然而，通过将 LLM 的行为和预测与大量人类决策的数据集进行比较，我们发现情况实际上并非如此：在模拟和预测人类选择时，一套尖端的 LLMs（GPT-4o 和 4-Turbo，Llama-3-8B 和 70B，Claude 3 Opus）假设人们比实际更理性。具体而言，这些模型偏离了人类行为，更接近于经典的理性选择模型 - 预期值理论。有趣的是，人们在解释他人行为时也倾向于假设他人是理性的。因此，当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时，我们发现这些推理之间高度相关。因此，LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致，而不是与人们实际行动相一致。

Jun, 2024

LLMs 的高风险决策中的认知偏差

我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Feb, 2024

评估 LLM 中所包含的道德信念

本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了 680 个道德情景（如 “我应该说一个善意的谎言吗？”）和 687 个明确的道德情景（如 “我应该在路上停车让行人通过吗？”），并对 28 个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Jul, 2023

基于 LLMs 的贝叶斯统计建模

利用贝叶斯统计模型，研究了大型语言模型（LLMs）在人类行为预测方面的类人特性，发现 LLMs 不能准确捕获人类数据的各项细节，但在聚合和条件水平的预测方面可以有效适配人类数据，显示出某些不同的方法可以使其得到充分的分布式预测。

Jun, 2024

预测和理解人类行动决策：基于大型语言模型和认知实例化学习的洞察

该研究论文探讨了大型语言模型在预测人类行为和决策过程中的能力，并发现结合认知架构可以提高对复杂决策模式的建模和理解。

Jul, 2024

超越概率：揭示大型语言模型评估中的不一致性

使用大型语言模型（LLMs）进行多项选择题（MCQs）的实证研究表明，概率评估方法在生成预测方面存在内在局限性，与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关，结果强调了 LLMs 评估方法的有效性和未来研究的启示。

Feb, 2024

多语种道德偏好解码：透过道德机器实验揭示 LLM 的偏见

这篇研究主要针对大型语言模型（LLMs）在不同语言环境中的道德偏见进行了多语言分析，并发现这些模型具有不同程度的道德偏见，与人类偏好以及模型本身不同语言版本中的偏好有所区别。

Jul, 2024

LLM 治疗师行为评估的计算框架

我们提出了一种名为 BOLT 的新型计算框架，用于研究大型语言模型（LLMs）在担任治疗师角色时的对话行为。我们开发了一种上下文学习方法，定量测量 LLMs 的行为，基于包括反映、提问、解决方案、正常化和心理教育在内的 13 种不同的心理治疗技术。我们通过比较 LLM 治疗师与高、低质量人类治疗师的行为，并研究如何调整其行为以更好地体现高质量治疗中观察到的行为，发现 LLMs 的行为更接近低质量治疗，需要进一步研究来确保质量治疗。

Jan, 2024

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024

大型语言模型是否是理性投资者？

这项研究引入了一种新的框架，金融偏见指标（FBI），来对大型语言模型（LLMs）的金融合理性进行评估，重点是它们辨识和应对金融信息中微妙之处的能力，以及发现可能会偏向市场分析的非理性偏见。研究采用创新方法来衡量金融合理性，整合行为金融学的原则来审视 LLMs 的偏见和决策模式，并对 19 个主要 LLMs 进行全面评估，结果显示模型之间存在不同程度的金融非理性，受到设计和训练的影响。这项研究丰富了我们对 LLMs 在金融应用中的优势和弱点的认识，为开发更可靠和理性的金融分析工具奠定了基础。

Feb, 2024