- 多维马尔可夫奖励的表达能力
我们研究了不确定性下的序贯决策中马尔可夫奖励的表达能力,通过将马尔可夫决策过程 (MDPs) 中的奖励函数视为代理行为的特征化手段,研究了是否存在一种标量或多维度马尔可夫奖励函数,使得这个集合中的策略比其他策略更具吸引力。我们的主要结果给出 - 选择感知:用增强学习优化语言模型演员的状态描述
利用大规模语言模型(LLM)作为序贯决策制定任务的参与者,在机器人和游戏等领域应用它们的普适世界知识和规划能力;在此文献中,我们提出了一种称为 BLINDER 的方法,用于通过学习任务条件化状态描述的价值函数自动选择简明的状态描述,在 Ne - 生成流网络:马尔可夫链角度
本文对 Generative Flow Networks 进行了形式化,并将其视为循环马尔科夫链状态空间下采样的一种方法,这一方法可以在不使用流动的情况下模拟复杂的多模态概率分布函数。
- 基于点的价值迭代算法用于神经符号 POMDPs
本文介绍了神经符号人工智能在不确定性的情况下进行序列决策的一种新方法,即神经符号部分可观察马尔可夫决策过程 (NS-POMDPs);提出了基于多面体的新型连续状态置信度分段线性凸表示 (P-PWLC),并且扩展将 Bellman 备份应用于 - 黑盒顺序决策系统的自主能力评估
本文提出了一种能够有效描述黑盒决策系统能力的主动学习方法,并证明了该方法的收敛性和少许示例的普适性。
- 在连续状态空间中寻找反事实最优行动序列
针对连续环境的顺序决策问题,本文提出了一种基于有限时间马尔可夫决策过程和双射结构因果模型的搜索方法,并在真实临床数据上进行了实验。
- 通过强化学习实现算法代理和 LLM 之间的高效交互
本文主要介绍了使用基于强化学习的调解模型,来解决使用大型语言模型进行高级指令的效率和成本问题,并在四种实验环境下验证了该方法的准确性和效率。
- 具有通信的顺序主 - 代理问题:高效计算与学习
本文研究了一个在信息不完备的情况下,委托人和代理人之间的顺序决策问题。
- 基于数据驱动的悔恨平衡在线模型选择策略
研究随机环境下序列决策中模型选择的效用,并利用数据驱动方法得到候选后悔保证未知的基本学习方法,通过后悔平衡实现模型选择保证。
- 强化学习在 OPC UA 利用中的应用简述
本文介绍了并研究了增强学习技术和开放式平台通讯(OPC UA)技术,分析了二者在工业控制与优化中的应用,进一步探讨二者结合的可能性和需求。研究发现,尽管增强学习在工业控制与优化领域有着广泛的应用前景,但是在实际应用中仍存在标准化接口不足的问 - ICML掩码轨迹模型:预测、表征和控制
本文介绍了遮盖轨迹模型 (MTM) 作为顺序决策制定的一般抽象。MTM 采取轨迹,如状态动作序列,并旨在在相同轨迹的随机子集的条件下重建轨迹。通过高度随机化的遮盖模式进行训练,MTM 学习多功能网络,可以通过在推理时选择适当的遮罩来扮演不同 - 符号、子符号和混合方法在顺序决策制定方面的综述
该研究对于 SDM 的符号、子符号以及混合方法进行了评估,讨论了面临的挑战以及如何通过结合符号和子符号 AI 推进 SDM 领域的几项倡议。
- 基于模型的强化学习用于个性化肝素剂量控制
本论文提出了一种基于模型的方法来优化个性化的肝素剂量,包括一种预测模型和一种基于情景生成的方法,可以确保患者的安全性,并通过数值实验验证了该方法的预测性和治疗效果。
- 使用示范加速强化学习和规划:一项调查
本综述介绍了在复杂环境下采用启发式专家经验演示来加速强化学习决策的优点,讨论了演示在决策学习中各种应用方法,并提供了一个实用的流程示例用于生成和利用演示。
- 利用随机先验网络进行高维输出的可伸缩贝叶斯优化
本文提出了一个深度学习框架,基于具有随机先验的 bootstrap 整合的神经体系结构,用于贝叶斯优化和连续决策。该框架能够在高维输出的情况下逼近设计变量和感兴趣数量之间的函数关系,测试表明该方法在优化轮毂叶片的形状等高度复杂的任务中具有明 - 通过文本引导的视频生成学习通用策略
通过将序列化决策问题转化为文本条件下的视频生成问题,我们能够推广到新的目标并在不同的环境下进行学习和泛化,从而建立更加通用的智能体。
- 自监督多任务预训练:控制变压器
本文提出一种通用的预训练 - 微调流水线 ——Self-supervised Multi-task pretrAining with contRol Transformer(SMART),通过设计一种控制中心的自监督微调目标,结合控制变压器 - 适应开放世界新奇性的神经符号世界模型
本文研究了如何提高强化学习算法的适应性,通过引入一种名为 WorldCloner 的训练神经符号世界模型,从而实现快速的新颖性适应,并使用想象力来辅助适应后的策略,达到更高的效率。
- 公平性与序贯决策:局限性、教训和机遇
本文比较和讨论了算法公平性和道德决策制定两个主要领域的研究成果,探讨了其规范关切、不同技术方案的可行性,并阐述了两种领域对对方有用的思想。
- AAAI在动态环境下的序列决策中使用本地差分隐私
研究了在序列决策场景中如何在保持隐私的同时提供高效用性的问题。我们提出了一种非平稳随机腐败老虎机并构建了一个叫做 SW-KLUCB-CF 的算法,并证明了它的效用的上界。我们提供了一种可证明最优的机制,可以在提供高效用性的同时保证期望的本地