Feb, 2024

优化语言模型以符合人类偏好的问题的因果推断

TL;DR对大型语言模型的优化进行了初步探索,为了使模型正确学习文本和结果之间的关系,提出了因果语言优化问题的形式化,开发了解决该问题的方法 —— 因果偏好优化(CPO),并扩展了双重稳健 CPO(DR-CPO),最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。