RLx2:零基础训练稀疏深度强化学习模型
在软件 3.0 时代,将大型模型压缩集成到软件系统中已成为一种趋势,但是现有的模型压缩技术会对公平性性能产生负面影响。本文针对 Lottery Ticket Hypothesis (LTH) 修剪方法的公平性问题,提出了一种基于 Ballot 修剪框架的新颖方法,通过冲突检测的子网络选择和改进的训练流程来提高 DNN 软件的公平性。实验证明,Ballot 相比于先进的压缩方法,在五个流行数据集和三个广泛使用的模型上,能够将修剪的公平性分别提高 38.00%、33.91%、17.96%和 35.82%。
Jul, 2024
提出了一种新方法,将安全约束整合到深度强化学习(DRL)的机器人模拟训练中,并通过将安全要求的特定部分直接整合到机器人的学习算法中来评估这些安全约束的有效性。通过测试 DRL 模型在包括具有和没有障碍物规避的抓取任务等各种场景下的效率来验证这一方法,并使用基于仿真的测试来评估 DRL 模型对潜在危险和合规性的响应。该研究验证了这种方法显著提高了机器人系统的安全性能,且该 DRL 模型能够在维持操作效率的同时预测和减轻危险。采用带有安全传感器的协作机械臂测试平台进行验证,并使用平均安全违规次数、障碍物规避次数和成功抓取次数等指标来评估其性能,结果显示该方法在仿真场景中的平均成功率提高了 16.5%,在无安全违规的测试平台上提高了 2.5%。
Jul, 2024
在深度强化学习和持续学习文献中,标准化层近年来得到了重新关注,几篇论文强调了其改善损失函数曲面条件和对抗高估偏差等多种好处;然而,标准化带来了一个微妙但重要的副作用:网络参数范数增长与有效学习率衰减之间的等价性,这在持续学习环境中变得有问题,因为有效学习率可能相对于学习问题的时间尺度过快地衰减至接近零。我们提出了一种称为 Normalize-and-Project(NaP)的简单重新参数化方法,将标准化层的插入与权重投影相结合,确保有效学习率在训练过程中保持恒定;该技术不仅是深度强化学习中更好地理解学习率调度的强大分析工具,还是在合成可塑性损失基准测试以及 Arcade Learning Environment 的单任务和顺序变体中提高非稳态稳健性的手段。我们还证明了我们的方法可以轻松应用于热门架构,如 ResNets 和 transformers,同时在常见的稳态基准测试中恢复并在某些情况下甚至稍微改善基础模型的性能。
Jul, 2024
通过最大化利用可再生能源并应用深度强化学习算法(DRL)的近端政策优化(PPO)方法,研究提高电力效率、减少环境影响,从而提高奶牛养殖中的能源管理和可持续性。实证结果表明,相较于 Q 学习算法,PPO 方法可以减少 1.62% 的电力从电网进口,显著提高了奶牛养殖中的能源效率和可持续性。
Jul, 2024
利用深度强化学习(DRL)和混合 A * 路径规划方法,在自动驾驶系统中实现高级决策与低级轨迹规划,并通过真实系统验证其可行性。
Jul, 2024
通过深度强化学习和进化形态学,本研究探索了一种新型的过约束机器的设计与学习,旨在开发具有卓越能量效率的现代机器人四肢设计。研究结果显示,相较于平面四肢,在不同地形上,包括地板、斜坡和楼梯,过约束四肢的运动更加高效,至少可节省 22% 的机械能量,在平地上的平均速度是平面四肢的 20% 更快。
Jul, 2024
自主车辆需要行驶超过 110 亿英里以确保其安全性。因此,在进行真实世界测试之前进行模拟测试的重要性是不言而喻的。近年来,以 Carla 和 CarSim 为代表的自主驾驶三维模拟器的发布,标志着自主驾驶模拟测试环境从简单的 2D 俯视图过渡到复杂的三维模型。本论文提出了一个基于深度强化学习的自动生成程序的框架,该框架可以生成不同的二维地面脚本代码,用于构建三维模型文件和地图模型文件。生成的三维地面场景在 Carla 模拟器中显示,实验者可以使用该场景进行导航算法模拟测试。
Jul, 2024
通过利用大型语言模型的强大计算能力,本研究首次探索了基于语言模型的物理知识决策变换器 (PIDT) 框架,以解决传统强化学习方法在电力系统运行中分布式系统修复 (DSR) 问题中的伸缩性挑战,并通过比较研究评估其性能。
Jun, 2024
这篇论文探讨了在现代航空运输中引入的先进空中机动性(AAM)所带来的挑战和机遇,着重研究了自主运营需要的控制系统以及使用深度强化学习(DRL)技术进行演示环境中的危害减轻的比较。
Jun, 2024
通过约束参数空间到预定义和固定的非线性流形,我们提出的 MCNC 模型压缩方法有效地涵盖了这个空间,能在广泛的任务上实现前所未有的压缩率,从而识别高质量解决方案。在计算机视觉和自然语言处理任务的大量实验证明,MCNC 方法在压缩、准确性和 / 或模型重建时间方面显著优于现有技术基线。
Jun, 2024