Sep, 2024

价值指南针:人类与人工智能对齐的基本价值框架

TL;DR本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。