- 基于混沌的深度增强学习与 TD3 算法
混沌增强学习(Chaos-based reinforcement learning,CBRL)是一种通过内部混沌动力学驱动探索的方法,本研究将最新的深度强化学习算法之一,即双延迟深度确定性策略梯度算法(Twin Delayed Deep D - WESE: LLM 代理的弱探索强开发
使用弱探索强利用(WESE)方法,将大型语言模型(LLMs)代理在解决开放世界互动任务时的成功率和效率显著提高,通过分离探索和利用过程,并使用成本效益高的弱代理执行探索任务获取全局知识,然后引入基于知识图谱的策略来存储获取的知识并提取任务相 - 基于阈值驱动的混合采集策略贝叶斯优化加速材料发现
本文介绍了一种新的阈值驱动的 UCB-EI 贝叶斯优化(TDUE-BO)方法,该方法动态地整合了上置信区间(UCB)和预期改进(EI)获取函数的优势,以优化材料发现过程。通过在顺序采样结果的每个步骤中连续监测模型的不确定性来引导 UCB 到 - 高效广义低秩张量内容自助机
本文提出了一种新颖的多维数据和奖励函数非线性性能充分发挥的强大 Bandits 算法,引入了广义低秩张量上下文 Bandits 模型进行决策服务,并证明其优于向量化和矩阵化情况的后悔界。通过一系列仿真和真实数据实验验证了该算法的有效性,充分 - 强化学习的对比初始状态缓冲器
强化学习中,探索和利用之间的权衡对于从有限样本中实现有效学习提出了复杂的挑战。我们引入了对比初始状态缓冲区的概念,独立于底层的强化学习算法,选择过去的经验中的状态并使用它们来初始化环境中的智能体,以引导它朝着更有信息量的状态发展。实验结果表 - 通过未见过的状态增强在离线强化学习中利用泛化能力
离线强化学习方法在探索和利用之间通过保守的值估计寻求平衡,该研究针对这一问题提出了一种基于模型的方法来增强对未知状态的利用性,并通过值观察下的扰动来找到未知状态,取得了改进的性能。
- 早迟疑者输:基于 Hamilton 动力学的深度神经网络目标导向训练
本研究针对深度神经网络的高度结构化能量景观,提出了基于事件的控制机制,用于在到达预定义的损失函数降低值时从探索切换到开发;同时,我们将动量法解释为一个港口哈密顿系统,并在实验中验证了该策略的应用可以提高深度神经网络的性能。
- 受限 MDP 的安全后验采样与约束违规的界限控制
本研究提出了一种基于后验抽样的强化学习算法 Safe PSRL,它能够在不需要安全策略的前提下有效地平衡探索和开发,并通过采用悲观主义的思想仅受到有界的约束违规,从而在理论和实践上得到了良好的表现。
- 分层强化学习:面对不确定性的悲观和恒定遗憾
提出了一个学习框架,该框架使用两个算法与多层次结构的用户交互应用程序中的用户进行分组,以分别处理他们的不同探索风险容忍度,并研究了将 Pessimistic Value Iteration 作为利用算法的应用。
- KDD基于赌博机的马尔可夫决策过程在线性流中的序列决策建模
本文提出了一种基于 MDP 与 Bandits 的 Thompson 采样算法及其在推荐场景中的应用,旨在解决线性流程中的循环决策问题,该算法在模拟实验中表现出色,特别是在跨页相互依赖变化大的情况下,表现最为鲁棒。
- 蒙特卡洛树搜索:近期修改和应用综述
本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用,这种方法依赖于智能树搜索并平衡探索和利用。
- KDD使用主观逻辑估算多臂赌博机问题中的不确定性
本文考虑了主观逻辑的形式化,提出了新的基于主观逻辑的算法解决多臂赌博问题,并分析了主观逻辑使用在评估不确定性动态方面的见解。
- 广义线性赌臂问题的高效算法:在线随机梯度下降和汤普森抽样
本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法,它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索,能够在探索与利用之间取得平衡,在合成和实际数据集上始终优于现有算法,其总时间复杂度为 T 和 d 的线性比例,其中 - ICML学习内在奖励能够捕捉什么?
研究探讨奖励函数是否可以成为有用的学习知识中心,提出了一种可扩展的元梯度框架来学习多次体验中有用的内在奖励函数。通过实验证明,学习奖励函数可以捕获关于长期探索和开发的知识,并且可以应用于其他类型的智能体和环境动态的变化。
- 具有遗憾界限的变分贝叶斯强化学习
本文中,我们利用一种新的 Bellman 算子和相应的固定点,称为‘知识价值’,将期望未来回报和认知不确定性压缩成一个单一的值,从而实现了一种风险追求效用函数,并通过 Boltzmann 策略生成贝叶斯风险边界。
- ICLR深度贝叶斯赌博机对决:贝叶斯深度网络在汤普森抽样中的实证比较
本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法,发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。
- WWW上下文推荐的政策梯度
本研究提出了基于策略梯度的上下文推荐模型(PGCR),通过利用时间相关贪心和 Actor-Dropout 两种启发式技术解决了现实环境下上下文问题的应用,包括个性化广告等。实验验证了 PGCR 能够快速收敛,低遗憾,并优于经典上下文贝叶斯和 - 基于图的主动学习:对期望误差最小化的新思考
本研究提出了一种新算法 TSA,它有效地平衡了探索和利用之间的关系,具有与现有近似方法相同的计算复杂度,实现了在玩具数据和现实世界数据中的两者间的探索和利用平衡,优于多个最先进的相关研究。
- 使用近似动态规划的序贯贝叶斯最优实验设计
本文介绍了用于顺序试验的最优设计策略,并且使用贝叶斯推断的信息理论设计目标针对参数推断进行了 sOED 问题的严谨公式化。同时,研究了具有连续参数,设计和观测空间的非线性设计的数字方法,并利用探索和利用来提高状态空间中经常访问区域的逼近精度 - 使用高斯过程在 Bandit 环境下进行最优化估计
本文研究了一种直接利用未知函数 argmax 估计值的优化策略,并与 GP-UCB 和 GP-PI 策略建立了紧密联系。该方法的自动适应调整探索和利用的权衡,在机器人和视觉任务的广泛实证评估中表现出鲁棒性,通过性能 - 遗憾的界限说明了自适