- 酒天智能网络模拟平台设计
介绍了九天智能网络仿真平台,为开放创新平台提供无线通信仿真数据服务,包含一系列可扩展的仿真器功能,通过模拟环境和数据来进行模型训练和推理的强化学习算法开放服务,并允许用户通过上传和更新参数配置,在不同场景下进行优化任务。
- 诊断和利用视频游戏的计算需求进行深度强化学习
通过提出学习挑战诊断器 (LCD) 并使用其在 Procgen 基准测试中发现新的挑战分类,研究报道了在优化深度强化学习算法时出现的多种失败情况,并为更高效的进展提供了一条路径。
- 针对无法听见的语音激活设备的对抗性代理
通过对无声攻击进行的分析,我们确认安全风险因素为 7.6(满分为 10),突显了 NIST 国家漏洞数据库(NVD)独立评分的重大安全漏洞。我们的基线网络模型展示了一个攻击者使用无声语音命令来未经授权地访问安全笔记本中的机密信息的情景。我们 - DSSE: 无人机集群搜索环境
该研究旨在研究需要动态概率输入的增强学习算法,实现无人机群体寻找海难人员的模拟环境。
- 动态系统的乐观主动探索
本文探讨了如何对未知的动态系统进行探索以解决多个下游任务的优化问题,提出了一种使用概率模型来量化关于未知动态的认识不确定性的算法 OPAX,结果表明 OPAX 不仅在理论上具有可行性,在新的下游任务的零 - shot 规划上也表现良好。
- 具有个性化的元生成流网络用于任务特定的适应性
本文提出了 pGFlowMeta 算法,结合了任务特定的个性化策略与元策略,并在稀疏奖励和异质性环节上实现了性能提升,理论分析表明其算法收敛速度是次线性的,而广泛的实验表明所提出的算法在离散环境中优于现有的强化学习算法。
- 半无限约束马尔可夫决策过程与高效强化学习
本文提出了一种名为半无限约束马尔可夫决策过程(SICMDP)的模型,设计了两种基于模型和策略优化的强化学习算法(SI-CRL 和 SI-CPO),并在理论上进行了分析,以解决具有连续约束的决策任务。
- 针对基于强化学习控制器的模型提取攻击
本文提出了关于在通过使用增强学习(RL)算法训练深度神经网络(DNN)控制器并用于控制随机系统的情况下,攻击者试图估计该系统反馈控制器的模型获取攻击问题,并提出一个两阶段的算法来解决该问题。
- 一个面向按需乘车服务运营的多功能仿真平台
本论文提出了一个新的多功能、开源的共享出行仿真平台,用于模拟各种代理在真实交通网络上的行为和移动,为用户提供训练和测试各种优化算法的几个可访问门户,特别是强化学习算法,包括按需匹配、闲置车辆重定位和动态定价等各种任务。该平台能够有效地测试理 - 全球卫生中自适应干预的合成数据生成器
使用 Markov 过程生成多样化的用户行为,以测试针对移动健康干预的强化学习算法的健康合成开源合成数据生成器 HealthSyn,可生成基于真实行为和模拟技术的数据,用于开发、测试和评估研究中的 ML 算法和端到端操作 RL 基础干预交付 - 用于强化学习的无监督表示轻量级探测
本文提出了使用线性探测任务评估强化学习中视觉预训练算法效果的方法,通过与实际下游控制表现的相关性进行实验,优化了现有自监督学习配方的方法,突出了前向模型、视觉主干大小和无监督目标的重要性。
- ICML蒙特卡罗批判优化引导强化学习中的探索
本文提出了一种基于差分定向控制器的指引式探索方法,采用可扩展的探索行为修正,提高了传统探索方案的效率,并为政策和评论者修改提供了一种新算法,优于 DMControl 套件中现代强化学习算法.
- BRExIt: 关于专家迭代中对手建模的研究
提出了一种名为 BRExIt 的学习算法,利用对手模型来提高学习的效率和性能,在 Connect4 游戏中的实验验证,BRExIt 算法具有更高的采样效率,能够学习出表现优异的策略。
- 进化策略和强化学习方法在自主代理控制中的定性差异
本文通过分析 OpenAI-ES 进化策略和 Proximal Policy Optimization(PPO)强化学习算法之间的差异,探讨了两种方法在一般效果、应对稀疏奖励的能力、发现最小解决方案的倾向 / 容量、对奖励塑形的依赖性和应对 - MM多智体学习系统中自然形成低带宽通信
研究团队通过对动物沟通的洞察提出了一个低带宽至高带宽的通信光谱,通过研究追逐与逃脱的游戏,确定了多智能体强化学习算法作为低带宽通信的计算模型。
- 决策算法评估多模态安全关键场景生成
该研究提出了一种基于流的多模态安全关键场景生成器用于评估决策算法的鲁棒性,并使用六个强化学习算法进行实验,从而得出了它们的鲁棒性。
- ICML去中心化强化学习:通过本地经济交易进行全局决策制定
该研究旨在建立一个框架,以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题,并通过设计一种学习环境机制,使每个代理人的最优解与 Nash 平衡策略一致,并为其推导出了一类分散式强化学习算法,同时展示了该社群内 - SAPIEN: 一个基于零件的交互式虚拟环境
本文介绍了一个新的仿真环境 - SAPIEN,支持用于培训机器学习算法的家庭任务的模拟,并使用启发式方法和强化学习算法展示了机器人交互任务和部件检测等任务的状态和功能。
- ICML部分检测智能交通信号控制:环境适应
本研究旨在探究强化学习算法在 PD-ITSC 中应用的可行性及其应对瞬态变化场景的效果,结果表明相较于基于值函数的算法,基于策略的算法对于应对瞬态环境变化更加有效。
- ICML深度强化学习能否解决 Erdos-Selfridge-Spencer 游戏?
本文提出利用由 Erdos,Selfridge 和 Spencer 为代表的组合博弈作为用于评估和比较强化学习的不同方法的环境,这些游戏具有低维度、简单参数化的特征,在任何状态下都有最优行为的线性闭合形式解决方案,可以通过改变环境参数来调整