- PUZZLES:神经算法推理的基准
算法推理在问题解决和决策过程中起着重要作用,强化学习在运动控制、处理感知输入和管理随机环境等任务中表现出卓越的技能。本研究引入了 PUZZLES,这是一个基于 Simon Tatham 的便携式拼图集的基准,旨在促进算法和逻辑推理在强化学习 - 隐私保护的人口过程强化学习
我们考虑了强化学习算法中的隐私保护问题,该问题涉及人群过程,这是一个实际但研究很少的设置,例如在大规模个体之间进行流行病控制。我们通过 Pufferfish 隐私分析澄清了相关数据在人群进程中的差分隐私(DP)的贝叶斯语义,并提供了一种元算 - AAAI统一解释性与可解释性用于阿尔茨海默病进展预测
使用强化学习算法预测阿尔茨海默病的进展,并研究其可解释性;通过比较多种 RL 算法性能,发现只有一种能够较好地模拟疾病进展,但后续解释分析显示所有方法未能正确捕捉淀粉样蛋白囤积在阿尔茨海默病中的重要性。
- DTR-Bench:基于强化学习的动态治疗方案的用于环境和基准平台
强化学习在个性化医学中优化动态治疗方案方面有巨大潜力,但在模拟不同医疗场景和对 RL 算法的综合分析方面存在挑战,因此提出了 DTR-Bench,基于 4 个不同的仿真环境,针对常见 DTR 应用进行基准测试。实验结果表明,部分 RL 算法 - 从二维到三维环境中的 Q 学习:利用强化学习模拟自主导航,无需依赖库
通过实证分析,本研究评估了强化学习代理在不同空间维度中的学习轨迹和适应过程,揭示了强化学习算法在导航复杂的多维空间中的有效性,并对未来研究提出了思考。
- Open RL 基准:强化学习的全面跟踪实验
Open RL Benchmark 是第一个旨在提高和促进领域内研究人员工作的 RL 基准,它包含了一套完全跟踪的 RL 实验数据,以及算法特定和系统度量,成功复现了超过 25000 次运行的 RL 实验,涵盖了多个 RL 库和参考实现,并 - 应对流行期间教育场所的安全占用策略的强化学习
采用强化学习方法的 SafeCampus 工具在教育机构中模拟疫情扩散和探索强化学习算法,平衡最小化感染与最大化线下交流的策略。
- 变动动作空间下的环境感知强化学习
基于强化学习算法的学习历史的监督预训练,通过与环境的交互,能够捕捉学习过程并在上下文中改善对新任务的处理。然而,现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法,通过预测行为嵌入来消 - 在不完全市场中学习默顿的策略:递归熵规范化和偏倚高斯探索
我们研究了 Merton 的预期效用最大化问题,该问题发生在一个不完全市场中,该市场除股票价格过程外还具有因子过程,其中所有模型原始数据都是未知的。我们采用强化学习方法直接学习最优的投资组合策略,通过对未知市场进行探索,而无需尝试估计模型参 - STEER: 基于专家强化学习的统一风格转移
STEER 是一个统一的框架,通过专家增强(Expert Reinforcement)实现样式转移,用于解决样式转移中有限并行数据的挑战。该方法在多个目标样式中能够从任意未知源样式进行转移,具有灵活和高效的特性,取得了具有竞争力的基准线之上 - 强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用
这项研究将强化学习与轨迹优化相结合,以管理最大化奖励与遵守安全约束之间的权衡,并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能,通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。
- DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法
这篇论文介绍了对标准的 DSAC 算法进行三个重要修正,包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑,修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2,在各种基准任务中的表现进行了系统评估,结果显示,在所有测试环境中 - 提高强化学习中的数据效率:基于网格信息传播的新想象力机制
通过引入想象力机制,提高强化学习算法的数据效率,并在四个主流算法(SAC、PPO、DDPG 和 DQN)中得到了相对较好的性能提升。
- ICML通过解耦环境和代理的表示实现高效强化学习
提出了一种利用机器代理的视觉知识学习结构化表示的强化学习算法,并通过辅助损失函数将其融入强化学习目标,在包括 5 种不同机器人的 18 个具有挑战性的可视化仿真环境中,我们的方法比现有的无模型方法表现更好。
- 强化学习中的结构:综述与开放问题
为了克服弱数据效率、泛化能力有限、安全保障缺失、解释性差等因素导致强化学习在实际应用中面临的挑战,该论文提出了一种集成结构信息的方法来提高 RL 算法的性能和效率,并将结构信息的不同模式进行了分类,并提供了设计模式方面的新视角。
- ECCV重新思考自主驾驶的闭环训练
本文针对自动驾驶代理的封闭式训练提出了一种新方法 —— 轨迹价值学习 (TRAVL)。采取多步预测进行规划,同时利用虚拟数据进行有效学习。实验证明,TRAVL 相比于其他模型,能够更快地学习并产生更安全的机动操作。
- BackpropTools:一款快速便捷的深度强化学习库,用于连续控制
BackpropTools 是一个用于深度监督和强化学习的 C++ 库,能够在各种平台上高效地工作,其 RL 算法与模拟环境的紧密集成使得在微控制器上直接训练深度 RL 算法成为可能,这使得 “微型强化学习 (TinyRL)” 领域初次呈现 - 强化学习目标的一般视角
该论文提出了一种泛化的强化学习目标函数,其中包括标准的目标定义、扩展的 λ 回报版本和通过统一前两个版本提出的强化学习的目标函数,它可以高级地理解强化学习的目标,并连接一些广泛使用的强化学习技术(例如 TD (lambda) 和 GAE), - DEFENDER: 使用演示进行基于 DTW 的情节过滤,以增强 RL 安全性
提出了一种基于任务的方法来提高强化学习智能体在学习过程中的安全性,该方法利用少量的安全和不安全示范来过滤轨迹,适用于任何强化学习算法,并可应用于任何任务。在三个任务和两个状态下最新的强化学习算法的 OpenAI Gym benchmark - 增强学习的简单噪声环境增强
本文介绍了针对强化学习 (RL) 的数据增强技术,旨在提高 RL 算法在不同环境下的表现效果,包括引入噪声、探索状态空间和改善训练数据的多样性。作者提出了两种新的增强技术,并在三种常用的 RL 算法和五个 MuJoCo 环境中进行实验研究,