May, 2024

嵌入对齐的语言模型

TL;DR我们提出了一种新颖的方法,通过在潜在嵌入空间中定义目标,对大型语言模型(LLMs)进行训练。我们的方法利用强化学习(RL),将预训练的 LLM 作为环境。我们训练的嵌入对齐引导语言(EAGLE)代理程序通过迭代地引导 LLM 的生成,使其指向潜在嵌入空间的最佳区域,相对于某些预定义的准则。我们使用 MovieLens 25M 数据集展示了 EAGLE 代理程序的有效性,以满足潜在用户需求的内容间隙。我们还展示了使用状态相关动作集的最佳设计来提高 EAGLE 效率的好处。我们的工作为使用 LLMs 进行受控和基于实际的文本生成铺平了道路,确保与领域特定知识和数据表示的一致性。