Oct, 2023

大型模型中的伦理价值一致性解析

TL;DR大模型在理解、生成和操作信息和内容方面极大地提升了人工智能的能力,但是随着这些模型越来越广泛地融入日常生活,它们固有的伦理价值观和潜在偏见给社会带来了无法预见的风险。本文概述了与大模型相关的风险和挑战,调查了现有的人工智能伦理准则,并研究了这些模型局限性带来的伦理影响。从规范伦理学的角度出发,我们提出了对最新规范准则的重新评估,强调学术界合作努力在建立统一而普适的人工智能伦理框架方面的重要性。此外,我们利用道德基础理论来调查当前主流大型语言模型的道德倾向,分析了现有的对齐算法,并概述了在对齐这些伦理价值观时遇到的独特挑战。为了应对这些挑战,我们引入了一个用于对齐大模型伦理价值观的新概念范式,并讨论了对齐准则、评估和方法的有前途的研究方向,代表了跨学科构建符合伦理要求的人工智能的初步步骤。