面向具身化智能体的空间感知变压器内存
提出了一种新的记忆 - 基策略 Scene Memory Transformer (SMT),将每个观察值嵌入并添加到记忆中,并使用注意机制来利用时空依赖关系,该模型通用且可以在长时间段内高效地使用强化学习训练。在一系列视觉导航任务中,SMT 表现出比现有的反应式和基于记忆的策略更出色的表现。
Mar, 2019
本文提出了一种双存储自组织架构用于实现终身学习,其中包含具有学习物体实例和类别的互补任务的两个增长式重复神经网络;通过在连续感官经历中扩展它们,这两个增长网络都能够提取出对未知数据更强的特征。
May, 2018
提出使用无参数模块 Egospheric Spatial Memory (ESM) 来通过在自主代理周围的自我球内部编码记忆以实现表达三维表示来改善空间记忆的性能,并可以通过模仿或强化学习进行端对端训练,在训练效率和最后的控制方法表现方面明显优于其他记忆基线,同时可以无缝地将该控制器与其他未学习的模态相结合,从而实现对语义分割的应用。
Feb, 2021
本文提出了一种新型的基于模型的强化学习方法,利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的,该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。
Apr, 2018
基于历史序列预测未来序列的时空预测学习提供了一种自监督学习范式,主流方法利用循环单元进行建模,但循环单元的并行性不足,常常在现实场景中表现欠佳。为了在保持计算效率的同时提高预测质量,我们提出了一种创新的三元注意力变换器,在设计上捕捉了帧间动态与帧内静态特征。通过将 Triplet Attention Module (TAM) 整合到模型中,我们取代了传统的循环单元,并对时空和通道维度中的自注意力机制进行了深入探索。在这种配置下:(i) 时序标记包含了帧间的抽象表示,有助于捕捉固有的时序依赖性;(ii) 空间和通道的注意力结合,通过在空间和通道维度上进行细粒度交互来改进帧内表示。交替运用时序、空间和通道级别的注意力使得我们的方法能够学习更复杂的短程和长程时空依赖关系。广泛的实验表明,我们的方法在移动物体轨迹预测、交通流预测、驾驶场景预测和人体动作捕捉等多种场景下性能超过了现有的基于循环和非循环方法,达到了最先进水平。
Oct, 2023
通过 Episodic Memory Question Answering (EMQA) 任务以及一系列数据集和模型的介绍,本文阐述了在面向家居环境下,使用智能语音助手等 AR 设备进行信息沟通的场景中,利用换人的机器学习算法,更好地实现 AI 视觉辅助的目标。
May, 2022
通过研究注意力头与人类情节记忆之间的关系,我们发现 Transformers 模型和自注意机制的缺失,并发现在大型语言模型中诱导头的行为、功能和机制与人类情节记忆的上下文维护和检索(CMR)模型有相似之处。我们的研究揭示了 LLMs 的计算机制与人类记忆之间的并行关系,为这两个研究领域提供了有价值的洞见。
May, 2024
本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型,可以有效地推理图像中的文本内容,改进了 TextVQA 和 ST-VQA 两个关键指标,同时为视觉绑定的研究方向提供了新的思路。
Jul, 2020
本文提出了一种基于多尺度图形空间变换和记忆重现的轨迹平滑算法模型,可以在预测单一和多个未来路径的同时,综合利用空间信息并修正时间不一致的轨迹,同时还提出了一个新的评估指标来评估多轨迹预测的全面性。
Jun, 2022
本研究针对视频分类问题, 提出了一种基于 Transformer 与自注意力机制的空时表示学习方法,其中采用 shifted chunk Transformer 对视频帧间数据进行建模,通过局部到全局的多层次学习,构建了视频片段编码器,加强了长期时间依赖的建模能力,并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。
Aug, 2021