马尔可夫决策过程相似性度量的分类方法

IJCAIMar, 2021

马尔可夫决策过程相似性度量的分类方法

A Taxonomy of Similarity Metrics for Markov Decision Processes

Álvaro Visús, Javier García, Fernando Fernández

TL;DR本文研究任务相似性、转移学习及相似性度量等问题，提出 MDP 相似性指标分类方法，并分析其相关定义，最后对现有学说进行综述和未来发展方向的探讨。

Abstract

Although the notion of task similarity is potentially interesting in a wide range of areas such as curriculum learning or automated planning, it has mostly been tied to transfer learning. Transfer is based on the

发现论文，激发创造

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

鲁棒零样本文本转语音合成与逆向推导优化

逆向推断优化（RIO）是一种简单有效的方法，旨在使用来自人类反馈的强化学习，增强基于自回归模型的零样本文本到语音（TTS）系统的鲁棒性。RIO 通过引入基于贝叶斯原理的逆向推断的新概念来评估没有人类注释的 TTS 系统生成的语音质量，从而选择用于 RLHF 的示例，从而引导后续的优化以提高 TTS 的鲁棒性。RIO 框架通过采样、自动注释和学习来消除奖励模型或成对偏好数据的需求，并通过减少训练和推理条件之间的差异显著提高了零样本 TTS 性能的稳定性。实验结果验证了 RIO 能够有效改善主观和客观指标，包括平均意见分、词错误率和说话人相似性。值得注意的是，RIO 还可以将错误输出的发生率几乎降为零，与使用地面真实语音作为提示时的稳健性相媲美。

Jul, 2024

MARS：用于关节特征表征的多模态主动机器人感知

MARS 是一个新颖的多模态框架，通过多尺度 RGB 特征增强点云特征，同时使用基于强化学习的主动感知进行自主优化，能够精确感知关节对象、提高参数估计精度，并有效处理次优视角，增强机器人交互能力。

Jul, 2024

基于强化学习的数据密集型工作流调度用于志愿者边缘云

我们提出一种基于强化学习的数据密集型科学工作流调度方法，考虑到 Volunteer Edge-Cloud 资源的分布和异构性，以确保鲁棒的资源分配。通过将问题建模为马尔可夫决策过程，并使用基于事件的异步优势演员 - 评论家强化学习方法进行求解，我们在大量模拟和实验中证明了我们的方法在满足工作流需求、满足 Volunteer Edge-Cloud 资源偏好以及有效利用资源方面的优势。

Jul, 2024

契约强化学习：用无形之手牵引力量

通过合同设计解决在线学习问题中不同利益相关方的经济利益一致性，提出一种理论框架来解决机器学习中的代理问题，并设计了有效的动态规划算法和无悔学习算法以实现最优合同和平衡探索与开发的挑战。

Jul, 2024

DogeRM: 通过模型合并为奖励模型提供领域知识

通过模型合并将领域知识整合到通用奖励模型中，提高了对齐大型语言模型的性能。

Jul, 2024

DEAR：无需重构的强化学习中解耦环境和智能体表示

强化学习算法可以通过视觉观察学习机器人控制任务，但在视觉场景复杂且无结构时通常需要大量数据。本文探讨了代理器对其形状的认知如何提高视觉强化学习方法的样本效率，提出了一种名为 DEAR 的新方法，通过特征分离约束使用代理器的分割掩模作为监督来学习环境和代理器的解耦表示，在强化学习目标上以这些表示为辅助损失，以鼓励代理器专注于环境的相关特征。我们在两个具有挑战性的基准测试上评估了 DEAR：Distracting DeepMind 控制套件和 Franka Kitchen 操纵任务。我们的研究结果表明，DEAR 在样本效率方面超越了最先进的方法，通过减少参数数量实现了与其相当或更优越的性能。我们的研究结果表明，将代理器的认知融入视觉强化学习方法具有提高学习效率和鲁棒性的潜力。

Jun, 2024

Pommerman 多智能体训练：课程学习与基于人口自我对弈的方法

该研究介绍了一个使用课程学习和基于群体的自我对弈相结合的系统，用于训练多智能体系统玩 Pommerman，并解决了稀疏奖励和合适匹配机制的两个挑战性问题。实验结果表明，我们训练的智能体可以在不需要盟友间通信的情况下胜过顶尖的学习智能体。

Jun, 2024

强化学习中的无模型主动探索

采用信息论的观点，我们研究强化学习中的探索问题，并提出了一种新颖的无模型解决方案，通过推导实例特定的下界以及最优的探索策略，我们衍生出一种基于集成模型的无模型探索策略，适用于表格和连续马可夫决策过程，数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。

Jun, 2024

具有偏倚离线数据和不完善模拟器的强化学习基准

许多强化学习应用中，很难让智能体在真实世界中行动，这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战，并构建了 “机械离线强化学习基准”（B4MRL）来推动该领域的研究。结果表明，这些基准对未来研究至关重要。

Jun, 2024