Oct, 2024
MACPO:通过多智能体对比偏好优化实现弱到强的对齐
MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference
Optimization
TL;DR本研究解决了大型语言模型(LLMs)在弱到强对齐问题中的不足,提出了一种多智能体对比偏好优化(MACPO)框架。该框架通过相互学习和行为增强策略,改善了强学生模型与弱教师模型的对齐表现,实验结果显示,随着弱教师数量的增加,MACPO在对齐性能上持续提升。