May, 2022

社交规范和价值观在交互性叙事中的对齐

TL;DR通过训练语言模型并使用社会常识知识,我们提出了一种名为GALAD的制约其行动空间以符合社会合规价值的互动代理体系。实验表明,与其他价值对准方法相比,在提高工作表现的同时,GALAD代理能够将社会伤害行为的频率降低25%。