Jun, 2023
奖励汤:通过插值微调多样化奖励权重实现帕累托最优对齐
Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards
Alexandre Rame, Guillaume Couairon, Mustafa Shukor, Corentin Dancette, Jean-Baptiste Gaya...
TL;DR本研究提出使用多策略策略来包容多样奖励,应用于文本到文本,文本到图像和控制任务中,以增强深度模型的对与多样世界的交互的对准。