马尔可夫决策过程相似性度量的分类方法
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学习无模型策略和 Q 函数。此外,我们提出了一种混合规划策略,将学习到的策略、Q 函数和模型结合起来,以提高规划的时间效率。通过实际演示,我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。
Jul, 2024
逆向推断优化(RIO)是一种简单有效的方法,旨在使用来自人类反馈的强化学习,增强基于自回归模型的零样本文本到语音(TTS)系统的鲁棒性。RIO 通过引入基于贝叶斯原理的逆向推断的新概念来评估没有人类注释的 TTS 系统生成的语音质量,从而选择用于 RLHF 的示例,从而引导后续的优化以提高 TTS 的鲁棒性。RIO 框架通过采样、自动注释和学习来消除奖励模型或成对偏好数据的需求,并通过减少训练和推理条件之间的差异显著提高了零样本 TTS 性能的稳定性。实验结果验证了 RIO 能够有效改善主观和客观指标,包括平均意见分、词错误率和说话人相似性。值得注意的是,RIO 还可以将错误输出的发生率几乎降为零,与使用地面真实语音作为提示时的稳健性相媲美。
Jul, 2024
MARS 是一个新颖的多模态框架,通过多尺度 RGB 特征增强点云特征,同时使用基于强化学习的主动感知进行自主优化,能够精确感知关节对象、提高参数估计精度,并有效处理次优视角,增强机器人交互能力。
Jul, 2024
我们提出一种基于强化学习的数据密集型科学工作流调度方法,考虑到 Volunteer Edge-Cloud 资源的分布和异构性,以确保鲁棒的资源分配。通过将问题建模为马尔可夫决策过程,并使用基于事件的异步优势演员 - 评论家强化学习方法进行求解,我们在大量模拟和实验中证明了我们的方法在满足工作流需求、满足 Volunteer Edge-Cloud 资源偏好以及有效利用资源方面的优势。
Jul, 2024
通过合同设计解决在线学习问题中不同利益相关方的经济利益一致性,提出一种理论框架来解决机器学习中的代理问题,并设计了有效的动态规划算法和无悔学习算法以实现最优合同和平衡探索与开发的挑战。
Jul, 2024
强化学习算法可以通过视觉观察学习机器人控制任务,但在视觉场景复杂且无结构时通常需要大量数据。本文探讨了代理器对其形状的认知如何提高视觉强化学习方法的样本效率,提出了一种名为 DEAR 的新方法,通过特征分离约束使用代理器的分割掩模作为监督来学习环境和代理器的解耦表示,在强化学习目标上以这些表示为辅助损失,以鼓励代理器专注于环境的相关特征。我们在两个具有挑战性的基准测试上评估了 DEAR:Distracting DeepMind 控制套件和 Franka Kitchen 操纵任务。我们的研究结果表明,DEAR 在样本效率方面超越了最先进的方法,通过减少参数数量实现了与其相当或更优越的性能。我们的研究结果表明,将代理器的认知融入视觉强化学习方法具有提高学习效率和鲁棒性的潜力。
Jun, 2024
该研究介绍了一个使用课程学习和基于群体的自我对弈相结合的系统,用于训练多智能体系统玩 Pommerman,并解决了稀疏奖励和合适匹配机制的两个挑战性问题。实验结果表明,我们训练的智能体可以在不需要盟友间通信的情况下胜过顶尖的学习智能体。
Jun, 2024
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024
许多强化学习应用中,很难让智能体在真实世界中行动,这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战,并构建了 “机械离线强化学习基准”(B4MRL)来推动该领域的研究。结果表明,这些基准对未来研究至关重要。
Jun, 2024