ICLRAug, 2020

将人工智能与共享人类价值观相一致

TL;DR本文介绍了 ETHICS 数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。