Jan, 2024

朝着具有社会和道德意识的强化学习智能体:利用 LLM 进行奖励设计

TL;DR通过利用大规模语言模型(LLM)对道德和社会规范的理解,本研究评估了语言模型作为直接奖励信号的能力,并通过与人类反馈对比来展示语言模型的结果。