Jun, 2023

奖励汤:通过插值微调多样化奖励权重实现帕累托最优对齐

TL;DR本研究提出使用多策略策略来包容多样奖励,应用于文本到文本,文本到图像和控制任务中,以增强深度模型的对与多样世界的交互的对准。