Oct, 2023

使用稀疏自编码器解释RLHF调整的语言模型中的奖励模型

TL;DR通过稀疏自编码器解释强化学习调整的大型语言模型中的学习奖励机制,进一步检查语言模型中的奖励学习,以确保目标与模型行为之间的一致性。