用推理生成众伦理判断的 AI 工具
该研究通过对 Reddit 网站 /r/AmITheAsshole 上的道德判断进行分析,训练了一个分类器来判断用户评论的道德价值,并通过研究十个不同 subreddit 的网站特征来揭示网站上社区成员的负面 / 积极道德判断的倾向,研究结果表明,被判断为积极的帖子将获得更高的评分。
Jan, 2021
本文研究 Reddit 上面的 r/AmITheAsshole 论坛,通过建立新数据集并对评论进行分析,发现了帖子所使用的文本模式与道德判断,评论中的道德立场表达,以及训练有素的分类器对帖子和评论进行决策的关联性。
Jan, 2022
社交媒体通过对现实道德场景的评估提供了一个前所未有的途径,我们使用计算方法研究影响道德判断的因素,其中包括触发社交常识的事件和语言信号。通过对超过 24,672 个帖子和 175,988 个评论的研究,我们发现与事件相关的负面个人特质吸引了关注并激发了指责,这表明道德火花与应受指责之间存在相互依赖的关系。此外,影响评论者的认知过程来描绘事件和人物的语言有助于成为道德火花的可能性,而事实和具体的描述则倾向于抑制这种效果。
Oct, 2023
通过 Reddit 上最大的在线数据集 r/AmItheAsshole,利用话题建模等技术,发现道德困境的细致分类及其特征。其中我们发现,大多数困境都涉及至少两个话题,例如家庭和金钱;并且,话题的共现模式具有道德关注结构的有趣信息。该研究对于在线道德困境的细致分类研究具有很高的实用价值和参考意义。
Mar, 2022
人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人(2000)提议的改进型道德图灵测试(m-MTT),通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价,代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现,在几乎所有维度上,包括美德、智力和可靠性,他们评价 AI 的道德推理质量高于人类的,这与 Allen 等人所称的相对 MTT 相一致。接下来,在确定每个评价的来源(人类还是计算机)的任务中,人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试,但不是因为它的道德推理不如人类,而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。
Apr, 2024
探究自然语言生成模型作为行为先验条件用于社交环境中行为的假设生成,结合 Moral Stories 数据集研究并提出解码策略,通过综合专家模型实现优质行为生成、后果和规范生成。
Dec, 2020
研究人员通过分析 r/AmITheAsshole 中的语言和叙事特点,确定了角色与叙述者的共性和区别,探究了导致道德判断的因素。结果表明,对于角色而言,缺乏能动性与积极个人历程会导致判断为 “asshole”;对于叙述者而言,情感发泄和主观观点会使故事更具说服力。
Jan, 2023
AI 系统在决策中的应用日益增多,确保这些系统有合理的道德推理至关重要。我们提供了一个框架,使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板,并通过 OffTheRails 基准测试生成了一系列道德困境,组成了 50 个场景和 400 个独特的测试项目。与两个语言模型(GPT-4 和 Claude-2)的评价相比,我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中,将伤害视为必要手段(与副作用相比)会导致参与者和语言模型对其道德可容许性的评价较低,对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而,无论损害是来自代理人的行动还是来自未行动,都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。
Apr, 2024
通过精心设计的 MoralBERT 模型,结合社交媒体平台的标注道德数据,探索了道德预测及领域适应技术在理解有争议的社会议题上的应用,结果表明在领域内的预测模型明显优于传统模型,但领域外的泛化仍需进一步探索。
Mar, 2024
本文介绍了一种基于 Moral Foundations Theory 框架的 Moral Foundations Reddit Corpus,该语料库可以用于通过自然语言处理和计算方法提取 8 种品德情感,并提供了基于该语料库的分类结果。
Aug, 2022