Oct, 2022

使分类器能够明确地与人类价值观保持一致

TL;DR该研究介绍了一个基于明确人类价值观的价值对齐分类框架,并从大规模语言模型中提炼价值对齐知识以构建分类器,结果表明使用显式人类价值观分类器能提高人工智能的包容性和可解释性。