嵌入对齐的语言模型

May, 2024

Embedding-Aligned Language Models

Guy Tennenholtz, Yinlam Chow, Chih-Wei Hsu, Lior Shani, Ethan Liang...

TL;DR我们提出了一种新颖的方法，通过在潜在嵌入空间中定义目标，对大型语言模型（LLMs）进行训练。我们的方法利用强化学习（RL），将预训练的 LLM 作为环境。我们训练的嵌入对齐引导语言（EAGLE）代理程序通过迭代地引导 LLM 的生成，使其指向潜在嵌入空间的最佳区域，相对于某些预定义的准则。我们使用 MovieLens 25M 数据集展示了 EAGLE 代理程序的有效性，以满足潜在用户需求的内容间隙。我们还展示了使用状态相关动作集的最佳设计来提高 EAGLE 效率的好处。我们的工作为使用 LLMs 进行受控和基于实际的文本生成铺平了道路，确保与领域特定知识和数据表示的一致性。

Abstract

We propose a novel approach for training large language models (LLMs) to adhere to objectives defined within a latent embedding space. Our method leverages →

large language models reinforcement learning latent embedding space eagle agent text generation

发现论文，激发创造

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

大型语言模型的可控推荐

通过引入监督学习任务和基于强化学习的对齐过程，本研究明显提升了大型语言模型在推荐系统中遵循指示并保持高精度性能的能力。

Mar, 2024

构建更好的基于大型语言模型的稠密检索模型

提出了一种新颖的方法 LLaRA（LLM 适应于密集检索），它作为 LLM 的事后适应工具，用于密集检索应用。LLaRA 包括两个预处理任务：EBAE (基于嵌入的自编码) 和 EBAR (基于嵌入的自回归)，其中来自 LLM 的文本嵌入用于重建输入句子的标记并预测下一句的标记。LLaRA 简单、轻量且高效，应用于 LLMaMA-2-7B（基础）模型，在维基百科语料库上大大提升了模型对各种密集检索基准（如 MSMARCO 和 BEIR）的微调性能。

Dec, 2023

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

大型语言模型作为双人游戏中的代理

通过在单一统一的机器学习范式中正式定义大型语言模型（LLM）的训练过程，包括预训练、监督微调和强化学习与人类反馈，我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处，从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角，为解决对齐问题等战略考虑提供了新的理解。此外，我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。

Feb, 2024

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

RecExplainer: 为推荐模型可解释性而对齐大型语言模型

使用大型语言模型作为替代模型，模仿和理解目标推荐系统模型的行为，利用三种对齐方法，即行为对齐、意图对齐和混合对齐，在语言和潜在空间进行对齐训练，从而实现了高度可信的推荐解释生成。

Nov, 2023

用户 - LLM: 基于用户嵌入的高效 LLM 语境化

利用用户嵌入来上下文化大型语言模型，实现显著性能提升。

Feb, 2024

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个 LLM 增强的检索框架，我们显著提高了广泛使用的检索模型（如 Bi-encoders 和 late-interaction models）的效果，并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。

Apr, 2024

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。

Oct, 2023