强化学习中基于语言模型的历史压缩

ICMLMay, 2022

强化学习中基于语言模型的历史压缩

History Compression via Language Models in Reinforcement Learning

Fabian Paischer, Thomas Adler, Vihang Patil, Angela Bitto-Nemling, Markus Holzleitner...

TL;DR文章介绍了一种使用预训练语言变换器（PLT）来表示历史信息以提高采样效率的方法，该方法名为 HELM，通过自动关联筛选过后的预训练标记嵌入，使 actor-critic 网络模型不必学习过去的信息，从而达到比竞争对手更高的采样效率和更好的实验结果。

Abstract

In a partially observable markov decision process (POMDP), an agent typically uses a representation of the past to approximate the underlying MDP. We propose to utilize a frozen pretrained language transformer (P

partially observable markov decision process pretrained language transformer frozenhopfield actor-critic network architecture sample efficiency

发现论文，激发创造

规划、消除和跟踪 —— 语言模型是装备智能体的良师益友

使用大型语言模型的知识来简化控制问题，而不是直接解决它，作者提出了 Plan, Eliminate, and Track (PET) 框架，并在 AlfWorld 指令跟随基准测试中取得了显着的 15% 性能提升。

May, 2023

带有增强记忆的大型语言模型的开放式指导式具身化智能代理

通过相关的记忆检索，HELPER 利用外部的语言 - 程序对内存将自由形式的人机对话解析为行动程序，以提供上下文的例子查询来转变开放域自然语言，并且拓展内存以包含用户的语言和行动计划。

Oct, 2023

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

多视角压缩表示与低资源微调的鲁棒性研究

本文提出了一种新颖的方法，通过在预训练语言模型的隐藏表示上操作，通过将自编码器插入到 PLM 的隐藏层之间，将以前层的激活转换为多视图压缩表示，然后输入到上层，以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。

Nov, 2022

语义 HELM: 一种可解释的强化学习记忆

这篇研究通过使用 CLIP 将视觉输入与语言标记联系起来，利用预训练的语言模型作为代理的记忆来提供一个连贯且可解释的过去表征，实现了最先进的性能和在需要记忆过去才能解决任务的环境中表现出优势和劣势，具有可解释性。

Jun, 2023

语言模型作为层次编码器

利用超几何空间重新训练语言模型中的分层转换器编码器（Hierarchy Transformer encoders，HiTs），为回归语言模型中隐含的分层结构提供了一种新的方法，通过聚类与层级组织相关实体来提高在推论、预测和跨层次知识传递等任务中的性能和可转移性。

Jan, 2024

面向视觉和语言导航的历史感知多模态 Transformer

通过引入一种历史感知的多模式转换器来将长期历史包含在多模式决策中，以在视觉和语言导航中构建自主的视觉代理，进而通过使用强化学习进一步优化导航策略。

Oct, 2021

HMT：用于长文本语言处理的分层记忆变形器

通过模仿人脑记忆层次结构，我们提出了分层记忆 Transformer（HMT）框架，以提高模型的长上下文处理能力，并通过在限定上下文和长上下文模型上的评估验证了其有效性。

May, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

通过主动遗忘预训练以提高语言可塑性

本文提出使用主动遗忘机制作为预训练过程中的一种简单方法，以创建能够快速适应新语言的 PLMs。实验证明，与标准模型相比，在资源匮乏的情况下，使用遗忘机制的预先训练模型不仅在语言适应过程中表现出更快的收敛速度，而且在特别是对于与英语不同的语言来说表现更佳。

Jul, 2023