- 基于极值理论的大灾风险感知强化学习
在顺序决策过程中,解决减轻灾难性风险的问题,通过基于极值理论的尾风险近似导出的一种政策梯度算法 (POTPG),在金融风险管理中的动态对冲金融期权中得到了良好的实验表现。
- 大规模语言模型的高效顺序决策
本论文提出了一种新的方法,利用在线模型选择算法在序列决策中高效地整合 LLM 代理,统计上显著优于传统决策算法和普通 LLM 代理,计算上避免了 LLM 梯度更新的高昂代价,并且在整个决策过程中只需要少量 LLM 调用。
- 两阶段 ML 引导的不确定性顺序决策规则
在这篇论文中,介绍了一种名为 Two-Stage General Decision Rules (TS-GDR) 的新方法,通过使用深度递归神经网络来解决顺序决策问题,并应用于长期水热调度问题,显著提高了解决方案质量并大幅减少计算时间。
- 分布式 Q-learning 的有限时间分析
多智能体强化学习在分布式 Q 学习场景中的有限时间分析及样本复杂度结果
- MEXGEN:一种高效有效的信息增益近似用于信息收集路径规划
通过开发计算上高效且有效的算法,我们为在不确定信念状态下预测可能的传感器测量结果这一困难问题提供了一个更精确的近似解。实验结果表明,在多旋翼飞行器的广泛模拟和实地实验中,我们的方法在无线电源跟踪和定位问题中取得了改进的性能增益。
- 增强 LLM 智能体的分步思考提取和对齐决策
该论文提出了一种名为 TRAD 的新框架,通过 Thought Retrieval 和 Aligned Decision 方法解决了利用上下文示例的问题,实验表明 TRAD 在降噪和推广方面表现优异,并在全球商业保险公司的实际场景中成功部署 - 文本环境中的强化学习智能体的语言引导探索
通过使用预训练语言模型(称为 GUIDE)为强化学习代理(称为 EXPLORER)提供决策级别的指导,我们引入了 Language Guided Exploration(LGE)框架,并观察到 LGE 在具有挑战性的文本环境中显著优于传统强 - 信息论安全贝叶斯优化
通过提出一种信息论安全探索准则,本研究结合贝叶斯优化采样函数,基于高斯过程推断直接识别最具信息价值的安全参数进行评估,从而实现连续领域的可行性约束优化。
- 基于 Transformer 革新混合整数规划问题的求解方法
利用变压器模型解决容量限制批量问题,并通过深度学习框架和线性规划解决被认为是 NP - 难的问题,提供了解决时效、优化率和可行性等方面超越当前最先进解法的算法。
- 技能集优化:通过可转移技能强化语言模型行为
通过构建和优化一组可迁移技能,我们提出了技能集优化(Skill Set Optimization,SSO)来提高大型语言模型在交互环境中的决策性能。在这种方法中,SSO 通过提取具有高奖励的共同子轨迹,并生成子目标和指示来构建技能。这些技能 - 图形 Q-Learning 用于组合优化
本论文提出并证明了图神经网络可以应用于解决组合优化问题,通过将优化过程视为顺序决策问题,使用 Q-Learning 训练图神经网络可以在参数和训练时间上只占一小部分的情况下接近达到最先进的启发式求解器的性能。
- 强化学习优化美国公共卫生的热警报发布
通过应用强化学习方法优化热警报标准,本研究在考虑地区和社会人口异质性以及警报顺序依赖性的同时,通过建立模拟器和优化地点特定政策等关键修正,为环境卫生设置中的连续决策问题提供了解决方案,为公共卫生和气候变化适应的数据驱动政策优化做出了贡献。
- 记得公平:关于序列决策中的非马尔可夫公平(初步报告)
非马尔科夫公平关系在顺序决策制定中起着重要作用,研究涉及多方利益相关者和附加约束条件的决策制定过程中的公平性问题。
- 应对新的顺序决策任务的泛化学习
使用离线数据集,通过训练大型多样化模型,能够在只有少量示范数据的情况下,使自主代理器在新的任务上进行上下文学习。
- 通过层次强化学习重新思考决策 Transformer
决策 Transformer 是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了 DT 作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们 - 全球模型中集成新颖性检测的简单方法
我们提出了一种将新颖性检测引入世界模型强化学习代理中的直接边界方法,通过利用世界模型产生的虚拟状态与真实观察状态的不一致作为异常得分,有效探测并保护代理在新环境中的性能和可靠性。
- 强化学习,游戏与控制中的政策梯度方法的全局收敛性
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别 - 面向连续决策的统一框架
近年来,自动规划(AP)和强化学习(RL)的整合引起了广泛关注。为了实现这种整合,我们试图提供一个适用于从传统规划到深度强化学习的任何方法的顺序决策制定(SDM)的通用框架,该框架借鉴了概率论和贝叶斯推断的概念。我们用训练和测试的马尔可夫决 - TraCE:轨迹逆事实解释分数
我们提出了一个模型无关的模块化框架,TraCE(轨迹反事实解释)评分,用于评估顺序决策任务中的进展,并将其应用于医疗保健和气候变化两个案例研究,展示了其在不同领域的实用性。
- 基于概念的解释,促进智能体学习和用户理解
复杂 AI 系统使用时,为了便于非 AI 专家理解,正在努力开发能够产生可理解的 AI 决策解释的方法。本文提出了一个关于在序贯决策制定环境中定义 “概念” 的愿景,并探索了基于概念的解释对强化学习代理和最终用户的双重益处,同时通过提供学习