- 通过强化学习将大型视觉语言模型细调为决策代理
使用强化学习对视觉语言模型进行微调,提出了一种算法框架来增强其决策能力,验证了连续思维推理的重要性,并展示了在各种任务中超越商业模型的性能。
- 奖励集中
我们展示了解决连续强化学习问题的折扣方法可以在减去奖励的经验平均值后进行中心化,从而显著提高性能。这种改进在常用的折扣因子下非常明显,并且随着折扣因子接近 1 而进一步增加。此外,我们展示了如果问题的奖励被一个常数偏移,标准方法的性能会大幅 - 大规模离散动作空间的随机 Q 学习
在复杂环境中,使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中,传统的基于值的强化学习方法存在计算负担,本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法,并通过理论证明和实证验证表明,在不同控制 - 保持私密性:在线文本的无监督私有化
通过强化学习,我们介绍了一种自动文本隐私保护框架,该框架通过针对大型语言模型进行微调,产生能够在保持准确性、连贯性和隐私性之间达到平衡的重写文本,并在大规模的测试集上进行了全面评估,并成功规避了多种自动化作者识别攻击。
- 快速二次时间尺度随机梯度法及其在强化学习中的应用
提出了一种用于解决两时间尺度优化问题的新方法,通过利用平均化步骤改善算子的估计,消除了主要变量之间的直接耦合,从而大大加快了收敛速度,并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随 - CarDreamer:基于世界模型的自主驾驶开源学习平台
为了在错综复杂的实际情景中安全驾驶,自主车辆需要能够适应各种道路条件并预测未来事件。为了弥补这个空白,我们介绍了 CarDreamer,这是第一个专门用于开发基于世界模型的自主驾驶算法的开源学习平台。它包括三个关键组成部分:1)世界模型骨干 - 在线和离线配准算法之间性能差距的理解
通过一系列实验证明在线方法优于离线方法,且离线算法训练的策略对生成任务更差,而在线算法对成对分类较差,提示在线采样在人工智能对齐中扮演了关键角色,并暗示了离线对齐算法的一些基本挑战。
- 深度强化学习用于实时地面延误计划修订与对应航班延误分配
该论文研究了地面延误计划(GDP),它是一种在航空交通管理中常用的交通管理计划,用于协调机场的容量和需求差异。通过采用强化学习技术,该论文开发了两个强化学习模型:行为克隆(BC)和保守型 Q 学习(CQL)。这些模型旨在通过利用复杂的奖励函 - 成长中的人工神经网络控制:神经元多样性的作用
该研究探讨了通过细胞间的局部通信和自组织来实现神经网络的生长过程,引入了两种机制以确保保持神经元多样性,同时解决了优化稳定性和神经元多样性之间的矛盾。实验结果表明,通过这两种机制,神经发育程序在复杂运动任务中取得了与现有编码方式相当的结果。
- IJCAIvMFER:基于梯度方向不确定性的 Von Mises-Fisher 经验重新采样用于策略改进
研究通过测量渐变之间的不一致性,探讨了集合批评家所引发的渐变不一致性对政策改进的影响,提出了一种名为 von Mises-Fisher Experience Resampling (vMFER) 的方法,通过重新采样转换并赋予具有较低渐变不 - 基于 Python 的 Simulink 模型的强化学习
该论文提出了一个基于 Python 和 Simulink 模型训练强化学习智能体的框架,通过充分利用 Python 的自定义选项和流行的库,如 Stable Baselines3,以弥合 Simulink 环境和 Python 灵活性之间的 - TFWT:具有 Transformer 的表格特征权重
本文提出了一种新颖的特征加权方法来解决现有的表格数据特征处理方法的局限性。通过采用 Transformer 捕捉复杂的特征依赖关系并为离散和连续特征分配适当的权重,再结合强化学习策略对权重进行微调,我们的 TFWT 方法在各种真实数据集和不 - 降低支持强化学习策略的风险与扩散模型
应用强化学习和模仿学习改进辅助机器人的策略设计,以提供安全可靠的辅助护理解决方案。
- 线性 MDPs 中具有累积赌臂反馈的近最优遗憾
该研究通过使用集成的 Q 函数和新的随机化技术构建基于值的乐观算法,并使用新的对冲方案构建政策优化算法,对具有聚合强化学习反馈的线性函数逼近进行了扩展研究。
- 量子强化学习在连接顺序优化中的应用
本研究使用量子强化学习(QRL)基于混合变分量子波函数的方法,对连接顺序(JO)进行优化处理,以提高数据库管理系统的性能。尽管量子方法在问题解决结果质量上可能不显著超过经典方法,但我们发现所需训练参数大幅减少,并且能够更好地利用可用的训练数 - 基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究
在强化学习中,人工智能代理通过执行任务来最大化数值奖励,探索是至关重要的,因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理(FEP)提出了隐藏状态好奇心,并发现熵和好奇心可以实现高效探索,特别是 - 压缩的条件均值嵌入在线学习
通过算子值随机梯度下降的增量式学习算法,可以逐渐从数据中学习条件均值嵌入(CME),以便在大数据情况下处理可扩展性挑战,并在目标 CME 不包含在假设空间中时,提供在线压缩操作学习算法的有限样本性能保证。
- 离线到在线强化学习中的任务泛化集成后继代表
使用离线数据集构建继任者表示法和集成 Q 函数的方法,以实现从离线到在线学习的任务泛化和快速适应新任务。
- 生成流引导的神经架构搜索:探索小波神经算子中的最佳结构
我们提出了一种生成的流诱导神经架构搜索算法,使用简单的前馈神经网络学习随机策略生成超参数序列,通过最小化流违规和最大化终态奖励来训练架构搜索策略,在流之中生成了小波基础和激活序列,并通过流的生成路径来提高神经算子性能。
- 强化学习中的公平性调查
在本文中,我们调研了相关文献,提供了公平强化学习领域最新的发展概况。我们首先回顾了公平在强化学习中可能出现的情况,然后讨论了到目前为止提出的各种公平定义。接着,我们突出了研究人员在单智能体和多智能体强化学习系统中实现公平的方法论,并展示了公