BriefGPT.xyz
Ask
alpha
关键词
deep models alignment
搜索结果 - 1
奖励汤:通过插值微调多样化奖励权重实现帕累托最优对齐
本研究提出使用多策略策略来包容多样奖励,应用于文本到文本,文本到图像和控制任务中,以增强深度模型的对与多样世界的交互的对准。
PDF
a year ago
Prev
Next