Jan, 2023

反复斟酌方为上策:从文本编辑中学习重新调整与人类价值的对齐

TL;DRSecond Thought 是一种学习模式,通过模拟未对齐和对齐的文本之间的编辑链,使用语言模型微调和加强学习进行额外的细化,不仅在三个价值对齐基准数据集中实现了优越的性能,还在少样本情境下显示出强大的人类价值转移学习能力。生成的编辑步骤还提供了更好的可解释性和互动性错误更正。广泛的人类评估进一步证实了其有效性。