Apr, 2024

自我监督的互信息对齐:学习遵循原则而无需偏好标签

TL;DR使用SAMI方法,将预训练的语言模型教导遵循行为原则,无需任何偏好标签或示范,结果显示模型在单轮对话和摘要任务上优于初始预训练模型和指导微调模型,且能够在不使用偏好标签、示范或人工监督的情况下学会遵循定义。