面向具身化智能体的空间感知变压器内存

ICLRFeb, 2024

面向具身化智能体的空间感知变压器内存

Spatially-Aware Transformer Memory for Embodied Agents

Junmo Cho, Jaesik Yoon, Sungjin Ahn

TL;DR本文研究了空间感知变压器模型在新的事后记忆模式中的应用，该模式结合了时间和空间维度，提高了记忆利用效率，并在各种环境和下游任务中展示了改进的准确性。

Abstract

episodic memory plays a crucial role in various cognitive processes, such as the ability to mentally recall past events. While cognitive science emphasizes the significance of spatial context in the formation and retrieval of episodic memory, the current primary approach to implementin

episodic memory spatially-aware transformer models place-centric episodic memory memory utilization efficiency adaptive memory allocator

发现论文，激发创造

适用于具有长视程任务的实体代理的场景记忆变压器

提出了一种新的记忆 - 基策略 Scene Memory Transformer (SMT)，将每个观察值嵌入并添加到记忆中，并使用注意机制来利用时空依赖关系，该模型通用且可以在长时间段内高效地使用强化学习训练。在一系列视觉导航任务中，SMT 表现出比现有的反应式和基于记忆的策略更出色的表现。

Mar, 2019

双存储循环自组织的时空表示的终身学习

本文提出了一种双存储自组织架构用于实现终身学习，其中包含具有学习物体实例和类别的互补任务的两个增长式重复神经网络；通过在连续感官经历中扩展它们，这两个增长网络都能够提取出对未知数据更强的特征。

May, 2018

端到端自我空间记忆

提出使用无参数模块 Egospheric Spatial Memory (ESM) 来通过在自主代理周围的自我球内部编码记忆以实现表达三维表示来改善空间记忆的性能，并可以通过模仿或强化学习进行端对端训练，在训练效率和最后的控制方法表现方面明显优于其他记忆基线，同时可以无缝地将该控制器与其他未学习的模态相结合，从而实现对语义分割的应用。

Feb, 2021

具有空间记忆的生成时序模型用于部分可观测环境

本文提出了一种新型的基于模型的强化学习方法，利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的，该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。

Apr, 2018

时空预测学习的三元注意力变换器

基于历史序列预测未来序列的时空预测学习提供了一种自监督学习范式，主流方法利用循环单元进行建模，但循环单元的并行性不足，常常在现实场景中表现欠佳。为了在保持计算效率的同时提高预测质量，我们提出了一种创新的三元注意力变换器，在设计上捕捉了帧间动态与帧内静态特征。通过将 Triplet Attention Module (TAM) 整合到模型中，我们取代了传统的循环单元，并对时空和通道维度中的自注意力机制进行了深入探索。在这种配置下：(i) 时序标记包含了帧间的抽象表示，有助于捕捉固有的时序依赖性；(ii) 空间和通道的注意力结合，通过在空间和通道维度上进行细粒度交互来改进帧内表示。交替运用时序、空间和通道级别的注意力使得我们的方法能够学习更复杂的短程和长程时空依赖关系。广泛的实验表明，我们的方法在移动物体轨迹预测、交通流预测、驾驶场景预测和人体动作捕捉等多种场景下性能超过了现有的基于循环和非循环方法，达到了最先进水平。

Oct, 2023

情节记忆问答

通过 Episodic Memory Question Answering (EMQA) 任务以及一系列数据集和模型的介绍，本文阐述了在面向家居环境下，使用智能语音助手等 AR 设备进行信息沟通的场景中，利用换人的机器学习算法，更好地实现 AI 视觉辅助的目标。

May, 2022

将变形金刚中的上下文学习链接到人类的情节记忆

通过研究注意力头与人类情节记忆之间的关系，我们发现 Transformers 模型和自注意机制的缺失，并发现在大型语言模型中诱导头的行为、功能和机制与人类情节记忆的上下文维护和检索（CMR）模型有相似之处。我们的研究揭示了 LLMs 的计算机制与人类记忆之间的并行关系，为这两个研究领域提供了有价值的洞见。

May, 2024

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

基于图形的空间变换器与记忆重放的多未来行人轨迹预测

本文提出了一种基于多尺度图形空间变换和记忆重现的轨迹平滑算法模型，可以在预测单一和多个未来路径的同时，综合利用空间信息并修正时间不一致的轨迹，同时还提出了一个新的评估指标来评估多轨迹预测的全面性。

Jun, 2022

基于位移切块的时空表示学习变压器

本研究针对视频分类问题，提出了一种基于 Transformer 与自注意力机制的空时表示学习方法，其中采用 shifted chunk Transformer 对视频帧间数据进行建模，通过局部到全局的多层次学习，构建了视频片段编码器，加强了长期时间依赖的建模能力，并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。

Aug, 2021