道德故事：关于规范、意图、行动及其后果的情境推理

Dec, 2020

道德故事：关于规范、意图、行动及其后果的情境推理

Moral Stories: Situated Reasoning about Norms, Intents, Actions, and their Consequences

Denis Emelin, Ronan Le Bras, Jena D. Hwang, Maxwell Forbes, Yejin Choi

TL;DR探究自然语言生成模型作为行为先验条件用于社交环境中行为的假设生成，结合 Moral Stories 数据集研究并提出解码策略，通过综合专家模型实现优质行为生成、后果和规范生成。

Abstract

In social settings, much of human behavior is governed by unspoken rules of conduct. For artificial systems to be fully integrated into social environments, adherence to such norms is a central prerequisite. We investigate whether contemporary →

nlg models behavioral priors social settings moral stories decoding strategies

发现论文，激发创造

理解与生成道德故事的语料库

本文提出了两项理解任务和两项生成任务，以评估机器的道德故事理解和写作能力，并提供了一个新的汉英双语人工写作的道德故事数据集 STORAL，使用检索增强算法对模型进行训练，并在自动和手动评估中测试了不同模型的性能。

Apr, 2022

社交化学 101：学会理解社会与道德规范

社交规范是了解人物行为背后动机的关键；Social Chemistry 是一种新的正式概念体系，能够研究人们日常社交规范和道德判断，Social-Chem-101 是一个大规模的数据集，包含 292k 个使用自然语言描述的生活情境中的粗略规则，Neural Norm Transformer 是一种新型神经网络模型，能够成功推理先前未见过的情况，生成相关的社交规则。

Nov, 2020

人类与语言模型道德推理评估中的程序化困境生成

AI 系统在决策中的应用日益增多，确保这些系统有合理的道德推理至关重要。我们提供了一个框架，使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板，并通过 OffTheRails 基准测试生成了一系列道德困境，组成了 50 个场景和 400 个独特的测试项目。与两个语言模型（GPT-4 和 Claude-2）的评价相比，我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中，将伤害视为必要手段（与副作用相比）会导致参与者和语言模型对其道德可容许性的评价较低，对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而，无论损害是来自代理人的行动还是来自未行动，都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。

Apr, 2024

何时需要例外：探究语言模型作为人类道德判断的解释

为了能够有效地与人类协作并确保安全，人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战，本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集，并使用最先进的大型语言模型 (LLMS) 作为基础，提出了一个新的 MORALCOT 策略以预测人类道德判断。

Oct, 2022

通过经验与互动学习机器道德

下一代人工智能系统的安全性越来越受关注，需要将道德性融入自主代理中。本文系统化地介绍了在机器中引入道德性的现有方法，并提出了需要更多混合解决方案创建适应性强、稳健可控且可解释的代理的论点。同时，通过案例研究和评估道德学习代理的有效性，探讨了未来人工智能安全和伦理面临的挑战。

Dec, 2023

通过自然语言教学学习规范

本文介绍和演示了一种从自然语言文本中学习社会规范的计算方法，包括什么是正常和什么是规范的区别，为普通人培训 AI 系统有关社会规范提供了基础。

Jan, 2022

重新思考机器伦理 — 透过道德理论的视角，LLM 能进行道德推理吗？

提出了一个灵活的框架，利用跨学科研究中建立的道德理论，引导大型语言模型进行道德推理，证明了该框架在从道德理论中衍生的数据集上的有效性，展示了不同道德理论与现有道德数据集之间的一致性，并展示了开发可解释的道德判断系统中现有资源（模型和数据集）的潜力和缺陷。

Aug, 2023

自然发生故事原则预测的机器学习方法

本文探讨了利用机器学习模型对故事数据进行规范原则预测的任务，研究表明，单独的原则可以被分类，但 ' 道德准则 ' 的不确定性对于人类和自主系统来说都是一个挑战。

Nov, 2022

通识道德决策的计算模型

提出了一种基于社交动态的常识道德学习模型，描述了道德困境的效用函数，用于解决抽象的道德维度上的交易，并通过贝叶斯模型刻画了个体和团体的社会结构，从有限的观测数据中推断出个体和团体的道德价值，并将该方法应用于自主车辆道德困境数据。

Jan, 2018

MoralBERT：社会话语中道德价值的检测

通过精心设计的 MoralBERT 模型，结合社交媒体平台的标注道德数据，探索了道德预测及领域适应技术在理解有争议的社会议题上的应用，结果表明在领域内的预测模型明显优于传统模型，但领域外的泛化仍需进一步探索。

Mar, 2024