语言表征模型是否能够思考赌注?
AI 系统需要理解我们的决策方式以便与人类有效沟通,然而人类的决策并不总是理性的,因此大型语言模型(LLMs)中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的,LLMs 在日常互动中呈现出了人类行为的可信代理。然而,通过将 LLM 的行为和预测与大量人类决策的数据集进行比较,我们发现情况实际上并非如此:在模拟和预测人类选择时,一套尖端的 LLMs(GPT-4o 和 4-Turbo,Llama-3-8B 和 70B,Claude 3 Opus)假设人们比实际更理性。具体而言,这些模型偏离了人类行为,更接近于经典的理性选择模型 - 预期值理论。有趣的是,人们在解释他人行为时也倾向于假设他人是理性的。因此,当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时,我们发现这些推理之间高度相关。因此,LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致,而不是与人们实际行动相一致。
Jun, 2024
从文本推理的能力对于现实世界的自然语言处理应用至关重要。现实场景通常涉及不完整或不断演化的数据,在这种情况下,个体会相应地更新其信念和理解。然而,大多数现有评估假设语言模型在处理一致信息时运行,我们引入了 Belief-R,这是一个新的数据集,旨在测试语言模型在面对新证据时的信念修订能力。受人类抑制先前推理的启发,该任务在新提出的 delta reasoning($ΔR$)框架内评估语言模型。Belief-R 包含一系列前提,旨在模拟额外信息可能需要语言模型绘制的先前结论的情况。我们对约 30 个不同提示策略的语言模型进行评估,发现语言模型通常在适当修订其信念以响应新信息方面存在困难。此外,擅长更新的模型在没有必要更新的情况下通常表现不佳,凸显了一种关键权衡。这些洞见强调了提高语言模型对变化信息的适应能力的重要性,这是朝着更可靠的人工智能系统迈出的一步。
Jun, 2024
评估语言模型在概率推理能力上的表现,并通过使用理想化和真实统计分布的方式进行系统评估,包括估计百分位数、生成样本和计算概率等三个任务。我们发现,语言模型通过对分布进行推断,并结合真实世界的背景、示例和简化假设等方式可以提高推理能力。我们还开发了一个全面的基准分布数据集和相关的问题答案对,将其公开发布。
Jun, 2024
这项研究引入了一种新的框架,金融偏见指标(FBI),来对大型语言模型(LLMs)的金融合理性进行评估,重点是它们辨识和应对金融信息中微妙之处的能力,以及发现可能会偏向市场分析的非理性偏见。研究采用创新方法来衡量金融合理性,整合行为金融学的原则来审视 LLMs 的偏见和决策模式,并对 19 个主要 LLMs 进行全面评估,结果显示模型之间存在不同程度的金融非理性,受到设计和训练的影响。这项研究丰富了我们对 LLMs 在金融应用中的优势和弱点的认识,为开发更可靠和理性的金融分析工具奠定了基础。
Feb, 2024
在大型语言模型中添加一个反思层次,通过构建信念图和使用形式化的约束推理器,从而减少其答案与其他 “信念” 的依赖关系和不一致性,REFLEX 方法可以改善一定程度的一致性,同时不降低模型的答案准确性。
May, 2023
本文着重探讨了大型语言模型(LLMs)及其在生成创造性写作和问答系统等方面的应用,并提供了一种基于损失的数学抽象模型来平衡模型的创造性和真实性。
Jun, 2023
本研究考虑了大型语言模型(LLMs)在推理涉及概率值明确量化的文本时面临的挑战。通过引入贝叶斯语言推理数据集(BLInD),我们详细说明了 LLMs 在涉及概率推理的任务中的限制,并提出了几种将问题映射到不同形式表示的策略。我们通过在 BLInD 上进行评估以及对因果推理问答数据集的适应性改编等实验证明了这些方法的实际效果。
Feb, 2024