Jan, 2023
反复斟酌方为上策:从文本编辑中学习重新调整与人类价值的对齐
Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits
Ruibo Liu, Chenyan Jia, Ge Zhang, Ziyu Zhuang, Tony X Liu...
TL;DRSecond Thought 是一种学习模式,通过模拟未对齐和对齐的文本之间的编辑链,使用语言模型微调和加强学习进行额外的细化,不仅在三个价值对齐基准数据集中实现了优越的性能,还在少样本情境下显示出强大的人类价值转移学习能力。生成的编辑步骤还提供了更好的可解释性和互动性错误更正。广泛的人类评估进一步证实了其有效性。