语义 HELM: 一种可解释的强化学习记忆

Jun, 2023

语义 HELM: 一种可解释的强化学习记忆

Semantic HELM: An Interpretable Memory for Reinforcement Learning

Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter

TL;DR这篇研究通过使用 CLIP 将视觉输入与语言标记联系起来，利用预训练的语言模型作为代理的记忆来提供一个连贯且可解释的过去表征，实现了最先进的性能和在需要记忆过去才能解决任务的环境中表现出优势和劣势，具有可解释性。

Abstract

reinforcement learning agents deployed in the real world often have to cope with partially observable environments. Therefore, most agents employ memory mechanisms to approximate the state of the environment. Rec

reinforcement learning partially observable environments memory mechanisms interpretable human language

发现论文，激发创造

带有增强记忆的大型语言模型的开放式指导式具身化智能代理

通过相关的记忆检索，HELPER 利用外部的语言 - 程序对内存将自由形式的人机对话解析为行动程序，以提供上下文的例子查询来转变开放域自然语言，并且拓展内存以包含用户的语言和行动计划。

Oct, 2023

强化学习中基于语言模型的历史压缩

文章介绍了一种使用预训练语言变换器（PLT）来表示历史信息以提高采样效率的方法，该方法名为 HELM，通过自动关联筛选过后的预训练标记嵌入，使 actor-critic 网络模型不必学习过去的信息，从而达到比竞争对手更高的采样效率和更好的实验结果。

May, 2022

目标导向智能体的无监督预测记忆

本文介绍了一个新的模型 MERLIN，其通过利用可预测的建模引导记忆形成，使单一的学习智能体架构能够在心理学和神经生物学中解决基本行为任务。

Mar, 2018

在分层强化学习场景中解释代理的决策制定

本文提出利用基于记忆的可解释强化学习方法解决分层任务的复杂性，并计算成功概率用于解释代理的行为。结果表明，在高层任务中使用记忆算法可以计算出代理的成功概率并用作指导其行为的基础。

Dec, 2022

HELPER-X：基于记忆增强语言模型的统一可指导体现代理人解决四个交互式视觉语言领域

扩展 HELPER 的记忆范围，整合额外的 API 来提问，使得代理可以跨多个领域进行计划执行、自然语言指令跟踪、主动提问和常识房间重组，HELPER-X 在四个不同的互动视觉 - 语言体验代理基准测试中取得了少量训练和最新框架表现，与接受过特定领域培训的代理保持一定的竞争力。

Apr, 2024

HAMLET: 可解释的人机协同学习技术

本研究介绍了一种被称为人和机器协同学习技术（HAMLET）的方法，通过低置信度标签的迭代优化提高标签质量和专家一致性，从而实现了对深度神经网络的高效训练，并在 ICU 脑监测应用中展示了 70% 以上的准确率。

Mar, 2018

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

选择感知：用增强学习优化语言模型演员的状态描述

利用大规模语言模型（LLM）作为序贯决策制定任务的参与者，在机器人和游戏等领域应用它们的普适世界知识和规划能力；在此文献中，我们提出了一种称为 BLINDER 的方法，用于通过学习任务条件化状态描述的价值函数自动选择简明的状态描述，在 NetHack（一种具有挑战性的视频游戏）和机器人操纵任务上评估 BLINDER，我们的方法提高了任务成功率，减少了输入尺寸和计算成本，且能够在大规模语言模型参与者之间泛化。

Jul, 2023

内存学习：面向大规模语言模型的声明式学习框架

在这篇研究论文中，我们探索了一种新的学习框架，称为内存学习，它通过在内存组件中利用自然语言，使代理能够从以往的经验中提取洞察力并优化其性能。此外，我们还研究了用于评估自我改进过程的关键特征，并通过系统实验证明了我们的框架的有效性并提供了一些见解。

Mar, 2024

短时、情节性和语义记忆系统的机器

使用认知科学理论作为参考，研究者构建了一种基于知识图谱的具有短期、情节和语义记忆系统的智能体，并通过深度 Q 学习方法来使这个智能体在自己设计的强化学习环境中学会如何驾驭记忆来最大效益地回答问题。结果表明，与没有类似记忆结构的智能体相比，拥有人类式记忆系统的智能体在该环境下的表现更为出色。

Dec, 2022