将人工智能与共享人类价值观相一致

Aug, 2020

Aligning AI With Shared Human Values

Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li...

TL;DR本文介绍了ETHICS数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Abstract

We show how to assess a language model's knowledge of basic concepts of morality. We introduce the ethics dataset, a new benchmark that sp