股份投入：基于多利益相关者协调的LLM决策制定

May, 2024

股份投入：基于多利益相关者协调的LLM决策制定

Skin-in-the-Game: Decision Making via Multi-Stakeholder Alignment in LLMs

Bilgehan Sel, Priya Shanmugasundaram, Mohammad Kachuee, Kun Zhou, Ruoxi Jia...

TL;DR通过模拟多个利益相关者的视角，本文引入了“Skin-in-the-Game（SKIG）”框架，旨在提高大型语言模型（LLMs）的道德推理能力，并验证了SKIG在各种道德推理基准测试上的性能和关键组成部分。

Abstract

large language models (LLMs) have shown remarkable capabilities in tasks such as summarization, arithmetic reasoning, and question answering. However, they encounter significant challenges in the domain of moral reasoni

发现论文，激发创造

尽管具有“超人类”表现，当前的LLM系统不适合进行伦理和安全决策

提出了一种新的提示策略，其中包括要求大语言模型解释其推理过程，但结果表明，LLM的误差与人类的误差存在系统性差异，这使得制作对抗性示例变得相对容易，表示人类表现并不一定意味着人类理解或推理能力。

Dec, 2022

评估LLM中所包含的道德信念

本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了680个道德情景（如“我应该说一个善意的谎言吗？”）和687个明确的道德情景（如“我应该在路上停车让行人通过吗？”），并对28个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Jul, 2023

重新思考机器伦理 — 透过道德理论的视角，LLM能进行道德推理吗？

提出了一个灵活的框架，利用跨学科研究中建立的道德理论，引导大型语言模型进行道德推理，证明了该框架在从道德理论中衍生的数据集上的有效性，展示了不同道德理论与现有道德数据集之间的一致性，并展示了开发可解释的道德判断系统中现有资源（模型和数据集）的潜力和缺陷。

Aug, 2023

LLM-Deliberation：用互动多智能体协商游戏评估LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

道德对齐之上的伦理推理：LLM中一种案例和框架下上下文伦理政策

我们提出将通用道德推理能力加入到LLMs中，以处理全球范围的价值多元主义；该研究开发了一个框架，将伦理困境与不同形式的伦理学原则整合在一起，通过实验发现GPT-4在伦理推理方面表现接近完美，但仍对西方和英语社会的道德价值存在偏见。

Oct, 2023

个性化多议题协商游戏中的语言模型

利用大型语言模型（LLMs），AI代理已经能够完成许多人类任务。使用最经典的大五人格定义，我们衡量LLMs在博弈论框架内进行协商的能力，以及衡量公平与风险概念的方法论挑战。模拟结果（n=1,500）显示基于不对称议题价值的领域复杂性增加会提高协议达成率，但降低了激进协商的剩余价值。通过梯度提升回归和Shapley解释器，我们发现高度的开放性、责任心和神经质与公平倾向有关；低和谐性和低开放性与理性倾向有关。低责任心与高毒性有关。这些结果表明LLMs可能具有默认公平行为的内置防护措施，但可以被“越狱”以利用同意的对手。我们还提供了关于如何设计谈判机器人的实用见解，并提供了一种基于博弈论和计算社会科学评估谈判行为的框架。

May, 2024

STRIDE：面向战略和互动决策的辅助工具LLM代理框架

本文针对目前语言模型在战略多代理决策环境中存在的局限性，提出了一种新颖的语言模型代理框架，通过加入记忆和专门设计的工具，提升了其战略决策能力。通过在多个重要经济环境中的应用，特别是双边协商和多代理动态机制设计，我们使用定量指标评估了该框架在各种战略决策问题中的表现。研究结果表明，我们改进后的框架显著提升了语言模型的战略决策能力，同时也强调了当前语言模型的固有局限性，为未来在交互环境中的应用指明了一个有前景的方向。

May, 2024

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了Llama 2外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

MoralBench: LLMs的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

大型语言模型代理的道德对齐

本研究解决了大型语言模型（LLM）代理在与人类价值观对齐时的有效方法问题。本文提出了一种新的奖励函数设计，明确编码人类核心价值观，利用内在奖励进行基于强化学习的模型微调。研究结果表明，这种内在奖励方法能够有效促进代理的道德对齐，并且比现有对齐技术更具透明性和成本效益。

Oct, 2024