- 动态车联网中的 DNN 划分、任务卸载和资源分配:一种基于 Lyapunov 导引的扩散强化学习方法
人工智能和深度神经网络在车辆网络生态系统中的快速发展引入了计算密集型任务,对单个车辆的计算资源需求超过其能力,为解决这一挑战,车辆边缘计算作为一个解决方案应运而生,通过车辆间 / 基础设施之间的通信资源池提供深度神经网络任务的计算服务,本文 - 走向实际效率:自主机器人在自由漂移移动目标的预捕获中的强化学习中领域随机化
利用深度强化学习的控制方法,在微重力条件下解决机器人的抓取前阶段的复杂挑战,通过试错学习,消除了手动设计特征的必要性,使机器人能够学习抓取策略。
- 离线强化学习中的值函数估计是否能与分类器插件一起联动?
通过大规模实验和不同算法的多样性任务,我们的研究旨在实证地调查这种替代方法对性能的影响,结果显示在某些任务中,这种改变可以实现超过现有解决方案的卓越性能,而在其他任务中保持相当的性能水平;然而对于其他算法,此修改可能导致性能的显著下降。这些 - 深度强化学习的验证引导屏蔽
通过整合形式验证和概率验证工具,将输入域划分为安全和不安全区域,通过聚类和符号表示过程对不安全区域进行压缩,从而在(潜在的)不安全区域高效地临时激活防护,显著减少运行时开销并保持形式安全保证。
- 基于多属性竞拍的双胞胎移动资源分配在车联网元宇宙中的应用:一种基于 GPT 的强化学习方法
优化资源分配的车辆孪生系统中车载元宇宙的迁移机制,基于拍卖的机制采用生成预训练变换器 (GPT) 为基础的深度强化学习 (DRL) 算法,在不同设置下比较了社会福利和拍卖信息交流成本的性能,并证明了我们提出的 GPT-based DRL 拍 - 利用深度强化学习优化自动微分
利用深度强化学习和跨国消除的概念,该论文提出了一种优化雅可比计算所需乘法次数的新方法,并通过减少计算量实现了高达 33%的性能提升。
- 对抗性强化学习中的错误最小化的概率视角
深度强化学习中对抗性噪声的解决方法,包括使用正则化方法和引入 Adversarial Counterfactual Error 目标来提高鲁棒性。实证结果表明该方法在解决对抗 RL 问题上优于当前最先进的方法。
- 深度强化学习中的悲观和乐观动态探索
通过利用悲观的状态 - 动作值函数更新,以及通过可解释参数独立控制悲观 / 乐观程度,Utility Soft Actor-Critic (USAC) 在离策略演员 - 评论家算法中实现了平衡,可以根据任务的性质,在恰当配置的悲观 / 乐观 - GenSafe:基于简化马尔可夫决策过程模型的通用安全增强器
为了提高深度强化学习中系统的安全性,在这项工作中引入了一个名为 GenSafe 的通用安全增强器,通过模型降阶技术构建了一个低维度的 Proxy 来改善代理行为,从而提供了跨多种 SRL 方法的广泛兼容性,它不仅能够改善安全性能,特别是在早 - 通过延迟策略学习改善空中和陆地移动机器人控制的泛化性能
通过延迟策略更新技术(DPU)对航空和陆地移动机器人进行的分析表明,这种技术极大地缓解了推广能力不足的问题,并加速了代理的学习过程,提高了它们在各种任务和未知场景中的效率。
- 建模异质学生教学策略的通用学徒学习框架
提出了一种从具有异构奖励函数的优化或近优演示中诱导出有效教学策略的通用 AL 框架,并与四种基于 AL 的基准方法和两种基于 DRL 的策略在涉及教学行为预测的两个不同但相关任务上进行了对比,结果表明 EM-EDM 在所有性能指标上优于四种 - ICML多智能体强化学习与放射治疗中的叶片定序相遇
本文提出了一种新颖的深度强化学习模型 —— 增强叶序列器(RLS),用于叶片排序的多智能体框架,通过大规模训练提供了优化计划中耗时迭代优化步骤的改进,并通过设计奖励机制来控制运动模式。实验结果表明,RLS 模型可以实现减小荧光重建误差,并在 - ICML商业格斗游戏中推动深度强化学习智能体的训练、集成和智能体 - 人类对齐
通过引入异构联盟训练(HELT)来实现平衡的能力、泛化性和训练效率,Shukai 在《火影忍者手机版》上成功部署,并通过引入特定奖励,使其行为与人类预期一致,提供了对所有角色连续能力的证明,从而成为《火影忍者手机版》中玩家值得依赖的训练伙伴 - 基于潜空间目标的最优控制的深度强化学习行为模式切换
利用最优控制在深度强化学习策略的潜在空间中进行优化,识别并切换行为模式,结果表明该方法能够使策略产生所需的行为模式。
- 学习基础模型以解决路径规划问题的启发函数
通过深度强化学习训练启发式函数,该研究提出了一种新型基础模型,能够在不进一步微调的情况下适应各种新领域,从而在复杂路径规划问题中为人工智能驱动的解决方案建立了新的效率和适应性标准。
- ADESSE: 在复杂的重复决策环境中的建议解释
在人工智能驱动的决策过程中,提供一种人工智能代理与人类决策者之间协同关系的方法是一项重要挑战。本文介绍了一种名为 ADESSE 的方法,它通过生成解释来提高人类对智能代理的信任和决策能力。实证实验和用户研究结果表明,ADESSE 生成的解释 - 深度强化学习的生成式人工智能:框架、分析与应用案例
使用生成式人工智能(GAI)来提高深度强化学习(DRL)算法的性能,解决样本效率低和泛化能力差的问题,通过介绍经典的 GAI 和 DRL 算法及其应用,并展示了 GAI 增强 DRL 算法的实际集成框架,提供了一个基于无人机辅助的近场 / - OpenTensor:复现更快的矩阵乘法发现算法
OpenTensor 是 AlphaTensor 的复现,通过深度强化学习 (DRL) 发现了一种优于现有方法的矩阵乘法算法。
- 水下导航:深度强化学习的挑战性基准
深度强化学习在应用于真实世界的机器人系统方面具有令人兴奋和有希望的前景。我们提出了一个基于最新的游戏引擎和深度强化学习整合的新的水下导航基准环境,以解决在不可预测和非稳态环境中训练过程中的挑战。我们使用先进的训练技术对这个基准环境进行了广泛 - 通过强化学习中的内在动力特征学习任务相关的序列表示
通过建模状态转换的动力学方程、优化编码器以满足状态转换过程并区分状态空间和噪声空间,以及从序列元素频率域和多步预测的角度顺序地建模内在动力学方程关系,我们提出了一种内在动力学特征驱动的序列表示学习方法(DSR),并在视觉任务中展示了出色的表