May, 2024

使用未观测到的偏好异质性进行直接偏好优化

TL;DR利用 DPO 和最大期望适应机制,通过生成模型的混合来对齐不同人类偏好的生成模型,同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔,实验证实了方法在产生公正生成策略方面的有效性。