- 多模态感知中基于生成模型的软体机器人交互
该研究介绍了一个感知模型,通过协调来自不同模态的数据,构建一个完整的状态表示和吸收必要的信息,从而为开发复杂的控制策略铺平了道路。该模型基于感知输入和机器人动作之间的因果关系,采用生成模型来高效压缩融合信息并预测下一个观察值。我们首次提出了 - 针对自主驾驶的多模态感知参数化决策
自动驾驶是一项新兴技术,本论文提出了一种基于深度强化学习的参数化决策框架,AUTO,在感知多模态状态特征基础上设计了图形模型来学习多模态语义特征的状态表示,并通过混合奖励函数考虑安全、交通效率、乘客舒适度等因素,以生成最佳行动。通过广泛实验 - 用非对称规范来近似最小行动距离
本研究提出了一种奖励无关的马尔可夫决策过程的状态表示方法,通过自我监督学习嵌入空间,使得嵌入状态对之间的距离对应于在它们之间转换所需的最小动作数。与之前的方法不同,我们的方法采用了非对称范数参数化,可以在具有固有不对称性的环境中准确近似最小 - LLM-State:开放世界长期规划的可扩展状态表示
本研究通过使用大规模语言模型(LLM)来解决开放式家庭环境中长期任务规划的问题。我们提出了一种新颖的可扩展状态表示方法,利用 LLM 的上下文理解和历史行为推理能力来持续扩展和更新对象属性。我们的模型在模拟和现实世界的任务规划场景中验证,表 - 具有逆动力学表示的稳健视觉模仿学习
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿 - 零样本目标视觉导航与类独立关系网络
本研究探讨了无目标目标视觉导航问题。我们提出了一种称为无类关系网络(CIRN)的方法,将目标检测信息与目标与导航目标之间的相对语义相似性结合起来,构建了一种基于相似性排名的全新状态表示,有效地将智能体的导航能力与目标特征分离。我们的方法在 - 零样本迁移在模仿学习中的应用
我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示,并通过学习一个单一的 Q 函数来模仿专家,我们结合了深度强化学习中的最新进展,从而克服了奖励函数设计的困难、 - 表示抽象作为强化学习智能体的激励机制:一个机器人抓取的案例研究
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定 - 递减奖励的状态表示
在多任务强化学习中,我们研究了递减边际效用现象,并引入了一种新的状态表示,λ 表示(λR),它在政策评估方面的性能优于其他表示方法,并且在研究自然行为,特别是觅食行为方面也很有用。
- 以偏好为条件的基于像素的人工智能游戏测试代理
游戏行业面临着不断增长的需求和游戏复杂度,同时维持发布游戏的可接受质量标准的挑战。本文提出了一种基于像素状态观察的代理设计,通过演示轨迹来满足游戏测试工程师的喜好,并结合自监督和监督学习目标的模仿学习方法,显著优于现有基于像素的游戏测试代理 - 不良习惯:强化学习中的政策混淆和轨迹外泛化
在本文中,我们提供了对强化学习代理人的策略混淆现象的数学描述,并通过一系列示例展示了它何时发生以及如何发生。
- AAAIRSPT: 通用主动物体跟踪的环境重构和轨迹预测
该研究提出了一个名为 RSPT 的框架,通过重建环境和预测目标轨迹来形成结构感知的动态表征,并通过非对称充决策机制提高策略网络的泛化性能,成功地在各种仿真场景和现实世界应用中实现了对无序环境下具有多样布局及复杂障碍物的跟踪效果的优化。
- 多模态强化学习的有效性:模态对齐与重要性增强
提出了一种新的多模态强化学习方法,通过相似性和重要性对不同模态进行多模态对齐和重要性增强,以学习有效的状态表示并改善强化学习过程,实验证明在学习速度和策略质量方面优于现有方法。
- ICLR离线强化学习的行为先验表示学习
该研究提出了一种名为 BPR 的学习状态表示的简单有效方法,结合离线 RL 算法在多个控制基准测试中表现出明显的改进,其理论上可以实现保守算法的策略改进保证或产生策略值下限的算法。
- 神经精馏在强化学习中的状态表示瓶颈
通过模拟多个策略的过程进行知识蒸馏以及使用单个神经网络来学习有利特征的状态表示,可用于强化学习的多个任务之间的转移和更好的泛化能力,并通过选择重要变量、有效分离状态以及新任务的鲁棒性等三个标准对状态编码进行评估。
- 数据增强下的统一状态表示学习
该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法,可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现,达到了更高的样本效率和 14.3%的领域适应性比最佳基准结果。
- AAAISimSR: 一种用于深度强化学习的简单基于距离的状态表示方法
本研究探讨了如何使用深度强化学习方法从基于图像的观察中学习鲁棒和通用状态表示,并通过提出的 Simple State Representation (SimSR) 算子解决了现有工作中的计算复杂性,严格假设和表示塌缩挑战,实验结果表明我们的 - AttentionLight: 交通信号控制中重新思考队列长度和注意力机制
本文针对交通信号控制中容易忽略交通状态表达的问题,通过重新设计车辆排队长度、提出任务状态表示队列长度 QL 及其基于自注意力机制的交通信号控制方法 AttentionLight 实现了交通信号控制的优化,同时通过对多组真实数据集进行全面实验 - 哪些互信息表示学习目标足以支持控制?
本文研究了互信息最大化在强化学习中学习数据表示的应用,发现在理论上两种常见的互信息目标不足以提供充分的状态表示来学习最优策略, 并在模拟游戏环境中通过实证实验验证了这一结果。
- ICLR诚实自博弈
提出了一种基于进化学习的框架,利用机制设计中的对等预测方法添加虚拟奖励,使多智体强化学习任务中的智能体能够达成合作,从而实现了无偏见状态表示的学习。在猎食者 - 被猎物,红绿灯和星际争霸等任务中,框架的表现达到了最先进水平。