Jun, 2024

BPO:通过遵守行为近度增强在线偏好学习 LLM

TL;DR在线偏好优化(BPO)是一种特定的在线 DAP 算法,通过与行为语言模型(Behavior LLM)接近,在训练 LLM 的同时提高对人类参考文本的性能。