Oct, 2024

超网络基础的多目标微调框架 HyperDPO

TL;DR本研究解决了在大规模机器学习应用中,模型同时进行多目标微调的问题。提出的HyperDPO框架创新性地将直接偏好优化技术扩展至多目标微调设置,通过更有效的训练过程和灵活的后期控制来处理多种任务。实验表明,该框架在多任务场景下表现出色,对大规模机器学习的部署具有重要影响。