Jun, 2024

多语言对齐棱镜:调和全球和本地偏好以减少伤害

TL;DR在不同语言和文化偏好的非均质集合中优化全球和局部危害,同时解决 “对齐到什么” 的问题,本文研究了不同对齐方法的可行性,通过收集人工标记的红队测试提示生成了全球和局部危害的新的数据集,建立了开创性的对齐技术的先例,在 6 种语言中保持了一般性能的最小降级,为保护全球人口利益而设计的 AI 系统提供了重要的洞见。