适用于具有长视程任务的实体代理的场景记忆变压器
本研究针对三维室内环境目标物体导航,提出了一种基于强化学习方法的 Object Memory Transformer (OMT). 通过本方法在 AI2-THOR 数据集上的实验结果表明,OMT 能够优于以往方法,高效地导航以及实现目标。
Mar, 2022
本文提出了一种名为 Scene-Rep Transformer 的决策算法,使用改进后的场景表示编码和连续预测潜在蒸馏来提高强化学习决策能力,通过在 5 种具有挑战性的模拟城市场景中验证,演示了数据效率和成功率,安全性和效率等方面的实质性改进。
Aug, 2022
本文研究了空间感知变压器模型在新的事后记忆模式中的应用,该模式结合了时间和空间维度,提高了记忆利用效率,并在各种环境和下游任务中展示了改进的准确性。
Feb, 2024
本文提出了一个基于强化学习的路径规划方法,可以应用到多经纬系统,通过训练一个连续状态和动作的策略网络,使其具有理想的路径规划行为,该方法通过 LSTM 模块来编码不特定数量的状态,可以扩展到具有无限数量代理和维度的情形,同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。
Mar, 2022
本文提出了递归记忆决策变换器(RMDT),使用递归记忆机制用于强化学习问题,旨在改善大规模转换器模型在离线强化学习任务中的表现,实验证明,其性能明显优于没有递归记忆机制的同类模型。
Jun, 2023
我们提出了 MeMOTR,一种用于多目标跟踪的长期记忆增强 Transformer 模型,通过使用自定义的记忆 - 注意力层注入长期记忆,使得相同目标的轨迹嵌入更加稳定和可分辨,显著提高了模型的目标关联能力。实验结果显示,MeMOTR 在 HOTA 和 AssA 指标上分别超过了现有方法的 7.9%和 13.0%,并且在 MOT17 上的关联性能也优于其他基于 Transformer 的方法,同时在 BDD100K 上也具有很好的泛化性能。
Jul, 2023
本文提出并研究了一种记忆增强的分段循环 Transformer 模型 (RMT),通过通过加入特殊的记忆 tokens 实现,该模型能够存储和处理局部和全局信息,传递长序列片段之间的信息,具有学习长期依赖性和内存处理方面的潜力.
Jul, 2022
本文提出了一种基于内部工作记忆模块的决策制定代理,可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力,并进一步证明记忆微调可以增强所提出架构的适应性。
May, 2023
本文提出了一种名为 Episodic Transformer (E.T.) 的多模态 Transformer,可解决使用自然语言指令进行交互和导航所面临的挑战。通过采用合成指令来改善训练和决策,使得 E.T. 能够处理历史信息,以实现复合式任务,并在具有挑战性的 ALFRED 基准测试中取得了 38.4% 和 8.5% 的任务成功率。
May, 2021
提出一种名为结构化场景记忆(SSM)的模型架构,通过具有采集 - 读取控制器的全面行动空间和以前视经验的编码来辅助导航决策,并实现长程推理和全局规划,证明在 R2R 和 R4R 度量标准上实现了最先进的表现。
Mar, 2021