LLM 不确定环境下的决策行为评估框架
AI 系统需要理解我们的决策方式以便与人类有效沟通,然而人类的决策并不总是理性的,因此大型语言模型(LLMs)中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的,LLMs 在日常互动中呈现出了人类行为的可信代理。然而,通过将 LLM 的行为和预测与大量人类决策的数据集进行比较,我们发现情况实际上并非如此:在模拟和预测人类选择时,一套尖端的 LLMs(GPT-4o 和 4-Turbo,Llama-3-8B 和 70B,Claude 3 Opus)假设人们比实际更理性。具体而言,这些模型偏离了人类行为,更接近于经典的理性选择模型 - 预期值理论。有趣的是,人们在解释他人行为时也倾向于假设他人是理性的。因此,当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时,我们发现这些推理之间高度相关。因此,LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致,而不是与人们实际行动相一致。
Jun, 2024
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024
本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法,并应用此方法研究了不同语言模型中编码的道德信念,特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究,包含了 680 个道德情景(如 “我应该说一个善意的谎言吗?”)和 687 个明确的道德情景(如 “我应该在路上停车让行人通过吗?”),并对 28 个开放和闭源语言模型进行了调查。结果发现,在明确的情景中,大多数模型选择与常识一致的行动,而在模棱两可的情况下,大多数模型表达了不确定性,并且部分模型对问题的方式非常敏感,同时一些模型在模糊情景中反映出明确的偏好,尤其是闭源模型之间的一致性较高。
Jul, 2023
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了 LLMs 评估方法的有效性和未来研究的启示。
Feb, 2024
这篇研究主要针对大型语言模型(LLMs)在不同语言环境中的道德偏见进行了多语言分析,并发现这些模型具有不同程度的道德偏见,与人类偏好以及模型本身不同语言版本中的偏好有所区别。
Jul, 2024
我们提出了一种名为 BOLT 的新型计算框架,用于研究大型语言模型(LLMs)在担任治疗师角色时的对话行为。我们开发了一种上下文学习方法,定量测量 LLMs 的行为,基于包括反映、提问、解决方案、正常化和心理教育在内的 13 种不同的心理治疗技术。我们通过比较 LLM 治疗师与高、低质量人类治疗师的行为,并研究如何调整其行为以更好地体现高质量治疗中观察到的行为,发现 LLMs 的行为更接近低质量治疗,需要进一步研究来确保质量治疗。
Jan, 2024
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024
这项研究引入了一种新的框架,金融偏见指标(FBI),来对大型语言模型(LLMs)的金融合理性进行评估,重点是它们辨识和应对金融信息中微妙之处的能力,以及发现可能会偏向市场分析的非理性偏见。研究采用创新方法来衡量金融合理性,整合行为金融学的原则来审视 LLMs 的偏见和决策模式,并对 19 个主要 LLMs 进行全面评估,结果显示模型之间存在不同程度的金融非理性,受到设计和训练的影响。这项研究丰富了我们对 LLMs 在金融应用中的优势和弱点的认识,为开发更可靠和理性的金融分析工具奠定了基础。
Feb, 2024