BriefGPT.xyz
Aug, 2020
将人工智能与共享人类价值观相一致
Aligning AI With Shared Human Values
HTML
PDF
Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li...
TL;DR
本文介绍了ETHICS数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Abstract
We show how to assess a
language model
's knowledge of basic concepts of
morality
. We introduce the
ethics dataset
, a new benchmark that sp
→