何为合理点火？用于消除可消除的社交和道德情境的上下文和理由的迭代自提纯

EMNLPOct, 2023

何为合理点火？用于消除可消除的社交和道德情境的上下文和理由的迭代自提纯

What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts and Rationales for Disambiguating Defeasible Social and Moral Situations

PDF

Kavel Rao, Liwei Jiang, Valentina Pyatkin, Yuling Gu, Niket Tandon...

TL;DR在现实场景中，准确地代表人类的道德判断的微妙和复杂程度对于理解各种有争议的情境至关重要。本文介绍了一种可召集的道德推理任务，提供使行为在道德上更或更少可接受的有力背景，并搭配常识理由来证明推理。通过迭代的自我蒸馏方法，我们获得了一个学生模型，用于生成具有改进的有效性、多样性和可推翻性的有争议背景。利用这个模型，我们提炼了一个高质量的数据集《δ-Rules-of-Thumb》，其中包含 115,000 个高度被人工标注者评价为 85.9% 至 99.8% 的可推翻道德行为的 1.2M 个背景和理由。利用《δ-RoT》我们最终获得了一种明显优于所有中间学生模型的最终学生模型。

Abstract

Moral or ethical judgments rely heavily on the specific contexts in which they occur. Understanding varying shades of defeasible contextualizations (i.e., additional information that strengthens or attenuates the moral acceptability of an action) is critical to accurately represent the

defeasible moral reasoning contextualizations student models rationales dataset

发现论文，激发创造

针对社交和道德情境消歧的加强澄清问题生成及懈劣性奖励方法

ClarifyDelphi 是一种交互式系统，它通过生成澄清问题来识别道德情境的缺失上下文，它的设计受到启发的观察是，那些潜在答案导致道德判断相分歧的问题是最有信息量的，并且该系统可以辅助道德推理过程，通过寻找其他道德上下文来消除社会和道德情境的歧义。

Dec, 2022

道德故事：关于规范、意图、行动及其后果的情境推理

探究自然语言生成模型作为行为先验条件用于社交环境中行为的假设生成，结合 Moral Stories 数据集研究并提出解码策略，通过综合专家模型实现优质行为生成、后果和规范生成。

Dec, 2020

SCOTT: 自洽思维串讲压缩

提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

May, 2023

人类与语言模型道德推理评估中的程序化困境生成

AI 系统在决策中的应用日益增多，确保这些系统有合理的道德推理至关重要。我们提供了一个框架，使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板，并通过 OffTheRails 基准测试生成了一系列道德困境，组成了 50 个场景和 400 个独特的测试项目。与两个语言模型（GPT-4 和 Claude-2）的评价相比，我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中，将伤害视为必要手段（与副作用相比）会导致参与者和语言模型对其道德可容许性的评价较低，对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而，无论损害是来自代理人的行动还是来自未行动，都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。

Apr, 2024

运用反事实推论改善道德推理 —— 思想实验

本文提出了一种名为 Thought Experiments 的新提示框架，通过反事实让语言模型学习更好的道德推理。实验结果表明，使用这个提示框架可以消除 Moral Scenarios 任务的错误率，并且少量的人类监督可以显著提高任务的准确性。

Jun, 2023

远程监督下非单调推理的理性化学习

研究如何使用先前经过训练的语言模型、神经知识模型和相关任务的远程监督等，通过训练生成解释原因的生成模型来推断自然语言解释。然而，结果表明，由于神经语言模型的基本限制，该模型生成的解释仅限于具有普遍性的陈述，而在进行推理的同时预测更新或其类型和生成理由是更具挑战性的，这是未来的重要方向。

Dec, 2020

QCRD：基于质量引导的对比理由蒸馏用于大型语言模型

通过对比性理由蒸馏，我们提出了一种质量引导的方法用于推理能力学习，能够从大型语言模型中提取正面和负面的知识理由，并通过在线更新的判别器优化训练过程，得到更高质量的可解释性底层语言模型。

May, 2024

利用情境反事实推理进行信念校准

通过用多目标优化来校准背景驱动的反事实推理，我们提出了 “信仰校准周期” 框架，以更全面地校准信仰多样性。

Jul, 2023

何时需要例外：探究语言模型作为人类道德判断的解释

为了能够有效地与人类协作并确保安全，人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战，本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集，并使用最先进的大型语言模型 (LLMS) 作为基础，提出了一个新的 MORALCOT 策略以预测人类道德判断。

Oct, 2022

何时违背规则是可以接受的？基于实证数据的道德判断知识表示

研究人类道德思维中杰出的灵活性并将其应用于开发可以解释和产生类人道德判断的人工智能系统，以及将这些推理能力有效地嵌入机器中的方法，该方法利用基于偏好的结构来建模，并捕获了与标准双过程道德判断理论的新修正有关的话题，并详细介绍了研究结果。

Jan, 2022