- 模糊逻辑引导的奖励函数变化:强化学习程序测试的预示者
提出基于模糊逻辑的自动化预言方法来解决强化学习程序中的预言问题,通过量化智能体对奖励策略的行为一致性并分析其在训练过程中的趋势,如果行为一致性趋势违反预期,则将程序标记为 “有问题”,研究结果表明该方法在复杂环境中表现出优越的性能,为强化学 - 超越人类偏好:通过 LLMs 探索强化学习轨迹的评估与改进
基于偏好的强化学习利用大型语言模型生成自动偏好数据,并通过重构奖励函数来优化强化学习训练,在复杂环境中加速收敛并提高效果。
- OTO 规划器:用于复杂和未知环境的高效只旅行一次探索规划器
提出了一种高效的探索规划器,用于减少复杂环境中的重复路径,从而降低探索时间和移动距离,并提高前沿检测的速度。
- LTLDoG:满足时间延伸的符号约束的安全扩散规划
基于有限线性时态逻辑(LTLf)的指令,本研究提出了一种数据驱动的扩散式框架(LTLDoG),用于在复杂环境中生成遵守新的静态和时间延伸的约束 / 指令的远景轨迹,并在机器人导航和操纵的实验中验证了其有效性。
- 探索对比学习在扩散模型中的应用于稳健深度估计
最近,由于其优雅的去噪模式和良好的性能,扩散型深度估计方法引起了广泛关注。然而,在实际场景中存在的恶劣条件(如雨天、雪天等)下,它们通常不可靠。在本文中,我们提出了一种称为 D4RD 的新型稳健深度估计方法,其特点是针对扩散模型定制的对比学 - PSS-BA:具有渐进空间平滑的 LiDAR 束调整
该论文介绍了一种具有渐进空间平滑的 LiDAR 束调整方法,用于复杂环境下的点云构建,能够获得高质量的点云重建结果,并在复杂环境中展现出更好的精度。
- 基于 LLM 的中间件:工具在复杂环境中对语言代理很重要
本研究探讨了利用工具增强大规模语言模型在处理复杂环境中的潜力,并通过在知识库和数据库等复杂环境中的实证来展示这种潜力。结果表明,配备这些工具的 GPT-4 在需要访问数据库内容的任务中性能提高了 2.8 倍,在知识库任务中提高了 2.2 倍 - 机器学习和公民科学方法用于监测环境变化
这篇论文利用新工具和方法来回答有关复杂、异质且不断变化环境中的淹没区域和飓风事件的紧迫问题。除了遥感方法,公众科学和机器学习是利用先进技术回答环境管理和灾害响应问题的新兴领域。
- 隐藏和寻找” 问题的多智能体强化学习复制
强化学习中的文档化和可重现性不足,该研究使用类似 OpenAI 躲藏者和追踪者的模拟代理,通过增加飞行机制,扩大了可行动和策略范围,从而改善了躲藏者代理的追逐策略。
- 分布式深度探索的策略包
在复杂环境中进行高效的探索是强化学习中的一大挑战。本研究通过维护一组返回分布估计器副本的方法,即多策略集成(Bag of Policies),实现分布式强化学习的深度探索,提高学习和行为的多样性,并在 ALE Atari 游戏上的实验结果中 - SOCIALGYM 2.0: 多智能体社交机器人在共享人类空间中导航模拟器
SocialGym 2 是一个用于社交机器人研究的多智能体导航模拟器,它采用多智能体强化学习技术,以实现多个装备有不同动态限制的机器人在复杂环境中的最优导航策略,并提供各种社交导航指标的测试。
- 复杂 3D 环境中的分层强化学习
使用层次混合离线 - 在线的深度强化学习代理提出了一种解决 HRL 代理在可视复杂部分可观察 3D 环境中的问题的方法,并在 DeepMind Hard Eight 任务中与非分层 Muesli 基线相竞争,研究揭示了以前未注意到的实际挑战 - MM在多智能体环境中开发、评估和扩展学习智能体
DeepMind 的 “博弈论与多智能体团队” 研究了多智能体学习的多个方面,旨在使用深度强化学习探索复杂环境下的多智能体系统,并使用这些基准来推进我们的理解;本文总结了他们最近的工作并提出了一项分类,突显了多智能体研究中许多重要的开放性挑 - 层次化启动在强化学习技能转移中的应用
本文研究了如何将技能融入强化学习智能体的训练,提出了基于技能的新方法 Hierarchical Kickstarting(HKS),并在复杂环境下的游戏 NetHack 及其他基线测试中验证了其表现优于其他方法,并认为利用预定义技能为具有大 - 动态障碍物下的 3D 环境自主无人机群导航与多目标跟踪
本研究提出一种基于深度强化学习的自主建模人工群体的方法,以解决手动创建过程时间复杂且不切实际的问题。该方法通过对静态和动态障碍物及阻力的建模,实现了多目标追踪和鲁棒群体形成,而采用的策略包括动态群体管理、避免障碍与追踪对象及岛屿建模。创新的 - 分心控制套件 - 基于像素的强化学习的挑战性基准测试
本文提出一种基于视觉的控制新的挑战性基准,用于分析在多种视觉干扰和复杂性环境下的强化学习算法,结果表明当前视觉控制强化学习方法在复杂性视觉干扰下表现不佳,需要新的方法来应对现实世界的视觉复杂性。
- 具有深度多模融合网络的复杂环境自主导航
采用多模态融合方法,提出 Navigation Multimodal Fusion Network(NMFNet)解决复杂环境下自主导航的问题,并在模拟和真实移动机器人中取得了优异的性能。
- 路径积分控制下参数不确定性的基于模型的泛化
本研究在复杂环境中研究了机器人交互问题,通过扩展路径积分控制的自由能公式中的样本空间,提出了一种嵌入不确定性的路径积分控制方法,为基于模型的机器人规划提供了鲁棒性,实验证明了其能够在不损失性能的情况下实时运行。
- NIPS巴巴多斯 2018 年持续学习中的未解决问题清单
本文针对实现人工通用智能,提出了研究概要并探讨其中的难点,以期在学术界引发更多探讨,内容基于 2018 年 2 月巴巴多斯为期一周的研讨会。