Jun, 2024

关于奖励模型、参数更新和上下文提示的变换

TL;DR我们展示了三种常用的适应工具的互换性,分别为参数更新、奖励建模和上下文提示,形成了一个三角形框架,建立了六个转换方向,每个转换方向都有助于实现各种应用。我们的工作为现有研究提供了一个整体观点,并提出了潜在的研究方向。我们希望我们的工作成为未来 LLM 研究的有用路线图。