Oct, 2024

大型语言模型代理的道德对齐

TL;DR本研究解决了大型语言模型(LLM)代理在与人类价值观对齐时的有效方法问题。本文提出了一种新的奖励函数设计,明确编码人类核心价值观,利用内在奖励进行基于强化学习的模型微调。研究结果表明,这种内在奖励方法能够有效促进代理的道德对齐,并且比现有对齐技术更具透明性和成本效益。