- ADESSE: 在复杂的重复决策环境中的建议解释
在人工智能驱动的决策过程中,提供一种人工智能代理与人类决策者之间协同关系的方法是一项重要挑战。本文介绍了一种名为 ADESSE 的方法,它通过生成解释来提高人类对智能代理的信任和决策能力。实证实验和用户研究结果表明,ADESSE 生成的解释 - 深度强化学习的生成式人工智能:框架、分析与应用案例
使用生成式人工智能(GAI)来提高深度强化学习(DRL)算法的性能,解决样本效率低和泛化能力差的问题,通过介绍经典的 GAI 和 DRL 算法及其应用,并展示了 GAI 增强 DRL 算法的实际集成框架,提供了一个基于无人机辅助的近场 / - OpenTensor:复现更快的矩阵乘法发现算法
OpenTensor 是 AlphaTensor 的复现,通过深度强化学习 (DRL) 发现了一种优于现有方法的矩阵乘法算法。
- 水下导航:深度强化学习的挑战性基准
深度强化学习在应用于真实世界的机器人系统方面具有令人兴奋和有希望的前景。我们提出了一个基于最新的游戏引擎和深度强化学习整合的新的水下导航基准环境,以解决在不可预测和非稳态环境中训练过程中的挑战。我们使用先进的训练技术对这个基准环境进行了广泛 - 通过强化学习中的内在动力特征学习任务相关的序列表示
通过建模状态转换的动力学方程、优化编码器以满足状态转换过程并区分状态空间和噪声空间,以及从序列元素频率域和多步预测的角度顺序地建模内在动力学方程关系,我们提出了一种内在动力学特征驱动的序列表示学习方法(DSR),并在视觉任务中展示了出色的表 - 推进家庭机器人技术:高效训练和性能提升的深度交互强化学习
家庭机器人的发展可以通过强化学习和深度神经网络相结合的深度强化学习以及交互式反馈来提高其学习效果和效率。
- 基于深度强化学习的住宅家庭中隐私代价权衡的主动负载整形策略
提出了一种基于深度强化学习的负载整形算法 (PLS-DQN),通过主动创建人工负载签名来误导潜在攻击者,旨在保护用户隐私,同时保持成本效益。评估结果表明,该方法不仅有效隐藏真实能源使用模式,而且在提高用户隐私的同时也超越了最先进的方法。
- 生物神经元和深度强化学习在模拟游戏世界的样本效率上竞争
生物系统与机器学习算法在完成任务所需样本数量上有何比较?通过将体外生物神经网络与最先进的深度强化学习算法在 “乒乓球” 游戏的简化模拟中进行学习效率对比,发现即使是简单的生物培养物在真实时间课程下,也比所有深度强化学习代理在各种游戏性能特征 - 安全评论引导的强化学习系统修复
使用反例引导的修复算法通过梯度受限优化来修复强化学习系统中的安全缺陷,包括修复强化学习代理和安全评论家。
- 可解释和可编辑的程序化树策略用于强化学习
我们提出了 INTERPRETER,一种快速蒸馏方法,用于生成用于强化学习的可解释可编辑的树程序。我们通过实验证明,我们的树程序在各种顺序决策任务中能够与训练数据匹配,同时评估了我们设计选择对可解释性和性能的影响。我们展示了我们的策略如何被 - 5*5 多人围棋的深度强化学习
使用搜索算法和深度强化学习,本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。
- 闭式符号解:求解偏微分方程的新视角
该论文提出了一种新的框架:用于解决偏微分方程(PDE)的闭式符号框架(SymPDE),探索使用深度强化学习直接获得 PDE 的符号解。SymPDE 减轻了 Physics-Informed Neural Networks 在拟合高频率和陡变 - IJCAI无已知变化点的非稳定环境中的行为感知深度强化学习方法
我们的研究引入了行为感知检测和适应(Behavior-Aware Detection and Adaptation,BADA)创新框架,将环境变化检测与行为适应相结合。通过分析使用 Wasserstein 距离的行为之间的变化来识别环境变化 - 应用 Lyapunov 障碍证书对深度强化学习控制器进行形式化验证
我们提出了一种新的方法来训练和验证基于 NLB 的证书,通过证书的序列设计和过滤来简化验证过程,并与神经网络验证引擎一起提供正式保证,以确保 DRL 代理实现其目标并避免不安全行为,通过在 DRL 控制的航天器上进行案例研究展示了该方法的优 - 使用 Dueling Q-Learning 和 Hebbian Plasticity 学习玩 Atari 游戏
该研究利用先进的深度强化学习架构训练神经网络代理在 Atari 游戏中进行游戏。使用深度 Q 网络和分离 Q 网络等先进技术训练高效代理,并分析了基于可塑性的神经网络在该场景中的可行性以及它们在自适应学习环境中的生命周期学习特性。该研究对于 - 在共享空间中的自动驾驶车辆群体导航用于不确定性感知的深度强化学习
在人行道密集的环境中,安全、符合社会要求且高效的低速自主车辆的导航需要考虑行人的未来位置以及与车辆和其他人的互动。本研究提出了一种集成预测和规划方法,该方法在模型无关的深度强化学习算法的训练中考虑了预测的行人状态的不确定性。通过引入一种新的 - 重新思考鲁棒性评估:基于学习的四足动力学控制器的对抗攻击
通过串行对抗攻击来识别学习行动控制器的弱点,验证了即使是最先进的鲁棒控制器也可能在设计良好、低幅度的对抗序列下显著失败,并展示了该方法生成的结果如何用于加强原始策略并深入了解这些黑盒策略的安全性。
- GASE: 图注意力取样与边融合用于解决车辆路径问题
我们提出了一种自适应图注意力采样与边融合框架(GASE),通过使用具有高度相关邻域和边的注意力计算从而确定节点的嵌入,进一步融合采样网络中的消息传递和节点嵌入,在学习导向的 VRP 任务上表现出色,并在随机生成实例和真实世界数据集上展现出超 - 用无人机进行时关紧急野外搜救的深度强化学习
该论文探讨在野外环境中为无人机创建高效的搜索任务的深度强化学习方法,通过利用先验数据和概率分布图,学习最优的飞行路径以快速找到失踪者,实验结果表明,与传统覆盖规划和搜索规划算法相比,深度强化学习方法在搜索时间上取得了显著改进。
- 连续深度强化学习在分散卫星路由中的应用
这篇论文介绍了基于持续的深度强化学习的低轨卫星星座分散路由的完整解决方案,采用多智能体方法,其中每个卫星作为一个独立的决策制定智能体,通过从附近的智能体接收的反馈来获取环境的有限知识。