ICLRJan, 2024

基于奖励引导的搜索的 ARGS 对齐

TL;DR通过集成对齐到解码过程中,使用奖励信号调整模型的概率预测,ARGS 在不需要昂贵强化学习训练的情况下生成与人类偏好相一致的文本,提供了一种有前途且灵活的解决方案,以对齐语言模型。