道德故事:关于规范、意图、行动及其后果的情境推理
本文提出了两项理解任务和两项生成任务,以评估机器的道德故事理解和写作能力,并提供了一个新的汉英双语人工写作的道德故事数据集 STORAL,使用检索增强算法对模型进行训练,并在自动和手动评估中测试了不同模型的性能。
Apr, 2022
社交规范是了解人物行为背后动机的关键;Social Chemistry 是一种新的正式概念体系,能够研究人们日常社交规范和道德判断,Social-Chem-101 是一个大规模的数据集,包含 292k 个使用自然语言描述的生活情境中的粗略规则,Neural Norm Transformer 是一种新型神经网络模型,能够成功推理先前未见过的情况,生成相关的社交规则。
Nov, 2020
AI 系统在决策中的应用日益增多,确保这些系统有合理的道德推理至关重要。我们提供了一个框架,使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板,并通过 OffTheRails 基准测试生成了一系列道德困境,组成了 50 个场景和 400 个独特的测试项目。与两个语言模型(GPT-4 和 Claude-2)的评价相比,我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中,将伤害视为必要手段(与副作用相比)会导致参与者和语言模型对其道德可容许性的评价较低,对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而,无论损害是来自代理人的行动还是来自未行动,都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。
Apr, 2024
为了能够有效地与人类协作并确保安全,人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战,本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集,并使用最先进的大型语言模型 (LLMS) 作为基础,提出了一个新的 MORALCOT 策略以预测人类道德判断。
Oct, 2022
下一代人工智能系统的安全性越来越受关注,需要将道德性融入自主代理中。本文系统化地介绍了在机器中引入道德性的现有方法,并提出了需要更多混合解决方案创建适应性强、稳健可控且可解释的代理的论点。同时,通过案例研究和评估道德学习代理的有效性,探讨了未来人工智能安全和伦理面临的挑战。
Dec, 2023
提出了一个灵活的框架,利用跨学科研究中建立的道德理论,引导大型语言模型进行道德推理,证明了该框架在从道德理论中衍生的数据集上的有效性,展示了不同道德理论与现有道德数据集之间的一致性,并展示了开发可解释的道德判断系统中现有资源(模型和数据集)的潜力和缺陷。
Aug, 2023
本文探讨了利用机器学习模型对故事数据进行规范原则预测的任务,研究表明,单独的原则可以被分类,但 ' 道德准则 ' 的不确定性对于人类和自主系统来说都是一个挑战。
Nov, 2022
提出了一种基于社交动态的常识道德学习模型,描述了道德困境的效用函数,用于解决抽象的道德维度上的交易,并通过贝叶斯模型刻画了个体和团体的社会结构,从有限的观测数据中推断出个体和团体的道德价值,并将该方法应用于自主车辆道德困境数据。
Jan, 2018
通过精心设计的 MoralBERT 模型,结合社交媒体平台的标注道德数据,探索了道德预测及领域适应技术在理解有争议的社会议题上的应用,结果表明在领域内的预测模型明显优于传统模型,但领域外的泛化仍需进一步探索。
Mar, 2024