将人工智能与共享人类价值观相一致
构建与人类价值和目标相一致的 AI 系统,防止造成伤害或违反社会可接受行为的标准是一个重要课题,本研究通过研究伦理学作为价值一方面并训练多个 ML 代理,研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。
Dec, 2023
本文探讨了 AI 和 NLP 领域中的伦理学问题,重点关注了自动化伦理判断的 Delphi 模型,并提出了批判性的观点和如何通过透明度、民主价值观和简单明了的问责机制来推动机器伦理学的发展。
Nov, 2021
本文探讨了大规模语言技术在人类与对话代理之间的应用,提出了几个步骤以确保人类价值观得到贯彻,并探索了如何通过对话规范来协调对话代理与人类之间的通信。
Sep, 2022
人工智能技术应遵循人类规范,以更好地服务社会,避免传播有害或误导性信息,尤其是在会话式信息检索中。我们提出了一种将伦理对齐与初始伦理判断阶段相结合的工作流程,用于高效的数据筛选。我们提出了 QA-ETHICS 数据集,它源自 ETHICS 基准,并通过统一场景和标签意义作为评估工具。此外,我们还引入了 MP-ETHICS 数据集,以评估多个伦理概念下的场景,如公平和道德规范。此外,我们提出了一种新方法,在二进制和多标签伦理判断任务中取得了最佳性能。我们的研究为将伦理对齐引入会话式信息检索工作流程提供了实用方法。数据和代码可在此 https URL 中获得。
Oct, 2023
大模型在理解、生成和操作信息和内容方面极大地提升了人工智能的能力,但是随着这些模型越来越广泛地融入日常生活,它们固有的伦理价值观和潜在偏见给社会带来了无法预见的风险。本文概述了与大模型相关的风险和挑战,调查了现有的人工智能伦理准则,并研究了这些模型局限性带来的伦理影响。从规范伦理学的角度出发,我们提出了对最新规范准则的重新评估,强调学术界合作努力在建立统一而普适的人工智能伦理框架方面的重要性。此外,我们利用道德基础理论来调查当前主流大型语言模型的道德倾向,分析了现有的对齐算法,并概述了在对齐这些伦理价值观时遇到的独特挑战。为了应对这些挑战,我们引入了一个用于对齐大模型伦理价值观的新概念范式,并讨论了对齐准则、评估和方法的有前途的研究方向,代表了跨学科构建符合伦理要求的人工智能的初步步骤。
Oct, 2023
为了能够有效地与人类协作并确保安全,人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战,本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集,并使用最先进的大型语言模型 (LLMS) 作为基础,提出了一个新的 MORALCOT 策略以预测人类道德判断。
Oct, 2022
通过对 PEW 全球调查和世界价值观调查的分析,我们发现预训练的英文语言模型虽然可以捕捉到横跨 55 个国家和地区的细粒度(例如 “同性恋” 和 “离婚”)道德变异,但不能够显著地预测各个国家的道德规范,然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。
Jun, 2023
该论文介绍了用于培训具有伦理人工智能模型的社会数据和知识集体智能平台(STREAM),以解决将人工智能模型与人类道德价值观对齐的挑战,并提供道德数据集和知识库,以帮助推广人工智能模型 “像溪流自然而然地遵循好的建议”。通过创建一个全面而代表性的平台,准确地反映了包括人类和人工智能在内的不同群体的道德判断,我们希望有效地描绘文化和群体的变化,并捕捉到道德判断随时间的动态演变,从而促进人工智能模型道德能力的建立、评估、嵌入、体现、集成和发展(6Es)。目前,STREAM 已经提供了一套全面的道德场景,并收集了志愿者和各种流行的大型语言模型(LLMs)注释的大量道德判断数据,共同展示了人类和人工智能在各种道德背景下的道德偏好和表现。本文将概述 STREAM 的当前结构和构建,探讨其潜在应用,并讨论其未来前景。
Oct, 2023
人类对物理和社会世界的常识性理解建立在直觉理论的基础上,而这些理论支持我们进行因果和道德判断。本文通过收集一系列的故事并对其进行标注,测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示,虽然整体上随着近期大型语言模型的发展,其与人类的判断相符度有所提高,但通过统计分析发现大型语言模型与人类参与者之间对不同因素的重视程度存在明显差异。这些结果显示了如何通过策划和挑战性数据集结合来自认知科学的见解,超越基于总体指标的比较,揭示了大型语言模型的隐含倾向,并展示了这些倾向在多大程度上与人类的直觉相一致。
Oct, 2023