- 多用途转换器代理:无所不能,有所专长
多领域机器学习研究中一直存在着寻找一种通用模型的需求,本研究提出了 Jack of All Trades(JAT)模型,通过独特的设计和优化能够处理连续决策任务和多模态数据类型,并在强化学习、计算机视觉和自然语言处理等领域展现出卓越性能和多 - 线性赌博机的噪声自适应置信区间及其在贝叶斯优化中的应用
在线学习中通过与现有方法相比展示出更好或相当的性能,解决了适应未知噪声水平的问题,并提出了一种新的置信度集合与方差自适应方法。
- 面向使用人类反馈进行离线策略排序的强化学习
本文提出了一种新的离线值排名 (VR) 算法,可以在统一的期望最大化 (EM) 框架中同时最大化用户的长期回报和优化排名度量,以提高样本效率。理论和实证研究表明,EM 过程指导了学习策略,从而在没有任何在线交互的情况下享受未来回报和排名度量 - 在非稳态环境中的决策制定与策略增强搜索
在非固定环境下,通过结合过时策略的动作价值估计和最新环境模型的在线搜索,我们引入了一种名为 PA-MCTS 的增强蒙特卡洛树搜索方法,该方法解决了时限有限情况下的顺序决策问题,并在与 AlphaZero 和 Deep Q Learning - 关于样本高效的离线强化学习:数据多样性,后验采样和更多
我们提出了一个新颖的基于后验采样的离线 RL 算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
- 在联邦情境腕带中利用联邦学习的力量
本研究提出了一种名为 FedIGW 的新型 FCB 设计,以回归为基础的 CB 算法(即逆距离加权法)来更好地应用 FL 的创新,通过理论分析和实证评估证实了这一设计能够灵活并且无缝地整合现有和即将到来的 FL 协议,并模块化地插入 FL - 风险感知的神经上下文点臂连续控制
我们提出了一个风险感知的决策框架,用于处理上下文褒贬问题,并满足实际环境中的约束条件,通过采用一个多批评者的角色体系来平衡约束满足度和性能。
- 漫画风格视觉叙事定制生成器
我们提出了一种基于理论启发的视觉叙事生成器,该生成器融合了漫画创作习语,将漫画的概念原则转化为整合理论的系统层次,用于创作漫画内容。生成器通过从面板构图、物体位置、面板转换和叙事要素的层次上进行顺序决策来创建漫画。每个层次的决策基于叙事目标 - 语言智能能取代 PPO 吗?对 OpenAI Gym 的初步实证研究
语言代理是否能成为传统序列决策任务中 PPO 代理的替代品?本研究通过在 OpenAI Gym 中构建 TextGym 模拟器,对 PPO 代理和语言代理进行有效的比较,提出了基于统一强化学习框架和五个精确的领域知识控制场景水平的 RL-i - 用于视觉 Transformer 的高效顺序推理的令牌回收
为了减少 Vision Transformers 的计算效率,我们引入了 TOken REcycling (TORE) 的修改,将 ViT 分为迭代器和聚合器的两部分,以便在序列化推断过程中重复使用结果,并提出了一个附加的训练策略来减少与序 - 不完全信息博弈中的历史过滤:算法与复杂度
我们介绍和分析了子游戏分解中过滤历史的计算方面和可处理性,揭示了深度有限搜索通过子游戏分解在不完全信息环境下进行顺序决策的时机和方式。
- 大型语言模型作为训练强化学习智能体的良好策略导师
通过使用大规模语言模型,我们提出了一种新的框架,通过从语言模型教师代理接收指导行为,训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中,该学生代理可以用较少的数据进行训练,并通过环境反馈进一步提升其能力。实验结果表明 - 大型语言模型的自主树搜索能力
大型语言模型在高级提示技术方面具有出色的推理能力,但在需要探索、战略前瞻和序贯决策的任务上存在不足。最近的研究通过利用外部程序定义搜索逻辑,使 LLMs 能够执行被动树搜索以解决更具挑战性的推理任务。我们提出了一种名为 LLM 的自主树搜索 - 通过扩散学习实现目标达成
Diffusion models 可以将高维空间中的随机噪声通过迭代去噪映射到目标流形,来解决强化学习中以目标条件为导向的问题。本文提出了一种名为 Merlin 的方法,利用类似扩散过程的思想,在高维空间中构建从潜在目标状态扩散而远离的轨迹 - 平等的长期收益率:将静态公平概念应用于顺序决策
通过引入一种名为 ELBERT-PO 的偏差缓解方法,我们在三个连续决策环境上的实验证明 ELBERT-PO 方法显著减少了偏差并保持了高效用性。
- 在调解员反馈下的纯粹探索
该研究提出了一种严格推广的最佳臂标识问题,即在中介者反馈下的最佳臂标识问题,首先推导并分析了与该中介者反馈场景相关的样本复杂度的统计下界,然后提出了一种顺序决策策略,用于根据学习者已知的中介者策略发现最佳臂,最终将这些结果扩展到学习者不知道 - 脱机环境的贝叶斯逆转移学习
利用约束的方法从专家数据中学习变迁动力学的可靠估计来改进线下强化学习,减少策略差异,并结合不确定性估计推断出产生更高回报的行动部分排序和规划更安全和更具信息的策略。
- 深度强化学习用于稳健目标导向财富管理
提出了一种基于深度强化学习的鲁棒目标导向财富管理的新方法,实验结果显示其在模拟和历史市场数据上优于几个目标导向财富管理的基准。
- ICMLDIP-RL: 在 Minecraft 中的演示推断偏好学习
在这篇论文中,我们介绍了一种名为 DIP-RL 的算法,它利用人类示范的方式以三种不同的方式来解决在结构不清晰和开放性环境中的任务,包括训练一个自动编码器、使用示范数据种子强化学习训练批次以及推断行为偏好以学习引导强化学习的奖励函数。我们在 - Hindsight-DICE:深度强化学习的稳定信用分配
利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题,解决了在顺序决策制定问题中缺乏评估反馈的挑战。