Mar, 2024

从指令到约束:与自动约束验证的语言模型对齐

TL;DR使用者对齐是将通用语言模型(LMs)调整为下游任务所必不可少的,但人工注释往往无法涵盖所有类型的指令,尤其是具有定制约束的指令。本研究提出了一种统一框架 ACT(Aligning to ConsTraints),通过约束验证器自动产生用户对齐的监督信号,从而有效评估不同类别约束的满足率,并通过基于排序的学习过程来适应目标任务,实验证明 ACT 能够提高 LMs 对各种约束的遵循能力,从而改善任务性能,并且该约束遵循能力是可迁移的。