- 将对称性融入 GFlowNets 中
本研究旨在通过在生成过程中识别等效动作,将对称性整合到 GFlowNets 中。使用合成数据的实验结果显示了我们提出方法的良好性能。
- 利用动力学中的对称性进行有偏向奖励的基于模型的强化学习
通过 Cartan 的运动参考系方法,我们提出了一种学习动力学模型的技术,该模型具有指定的对称性,并通过数值实验证明所提出的方法可以学习出更准确的动力学模型。
- 成本感知的最佳臂识别
该研究针对具有双重对象的最佳臂辨识问题进行了研究。在传统奖励的基础上,每个臂都与成本分布相关联,目标是通过最小的预期成本来辨识出最高奖励的臂。研究提出了一个理论下界和两种算法,以降低计算复杂性和实现近乎最优的性能。通过实验证明了忽视异质性行 - ICLR基于模型的规划代理行为保证的奖励上界
近年来,对机器学习代理在野外,尤其是机器人领域的可信度产生了日益浓厚的兴趣,以提供行业的安全保证。我们的研究工作主要关注保证基于模型的规划代理在特定未来时间步达到目标状态的问题,通过展示目标状态的奖励存在一个下界,当该奖励低于该下界时,无法 - 金融领域中使用 Shuffled Features 的 CNN-DRL
在这项研究中,我们发现将卷积神经网络代理应用于深度强化学习的金融数据中,通过对特征向量进行特定排列,生成了一个 CNN 矩阵,从而更有效地定位相关特征,实验结果明确表明奖励得到了显著提升。
- 子群对聚类导航问题的研究
本论文介绍了一种 Orienteering Problem(OP)的扩展,被称为 Clustered Orienteering Problem with Subgroups (COPS)。在这个变种中,节点被分成子组,并且子组被组织成簇。每 - 多代理路径规划的蒙特卡洛树搜索:初步结果
研究了多智能体路径规划中如何利用蒙特卡洛树搜索(Monte-Carlo Tree Search)解决问题,提出了一种适用于多智能体路径规划的改进 MCTS 变种,通过计算个体路径和奖励来指导搜索过程,实验证明该方法优于基线规划算法。
- 游戏学习对学习者是否有益?
研究了两个智能体在重复对局中报酬和悔恨之间的权衡,提出了一种广义均衡概念,讨论了不同对手情况下的最优战略和可行方案,探究了利用这种广义均衡学习最优策略的方法。
- 运用软最小化方法提高瓶颈环境下多目标决策性能
本文提出了一种新的多目标决策方法 - SFELLA,它基于损失规避原则,避免了阈值导致的问题,并且相较于 MORE 方法更加回应奖励,但保留了它保守的、损失规避的激励结构。
- KDD电子商务盗匪地图
本文提供了一张结构化的 Bandit 算法映射图,帮助实践者通过有关奖励、行动和特征的关键决策点寻找相关实用的 Bandit 算法。
- AAAI当行动被修改时,强化学习代理的行为表现
通过 Modified-Action Markov Decision Process 模型,分析了强化学习算法在受到监督控制时的适应方法,展示了一些算法能够避免执行操作的更改,开发人员可以通过选择正确的算法来更好地管理其代理响应。
- 绕开怪物:一种更快、更简单的实现环境下上下文二项式算法
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有 $T$ 回合中通过对离线回归神谕的 $logT$ 次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下 - EMNLP利用世界知识奖励指代消解器的一致性
通过将 coreference resolver 的输出输入 relation extraction 系统,根据其在知识库中的三元组进行奖励,使用多任务强化学习获得最佳性能,改善了 coreference resolver 的性能。
- AAAI论述性神经机器翻译的连贯性建模
本研究提出一种使用话语上下文和奖励机制来从话语角度提高翻译质量的模型,能够有效提高翻译质量和话语连贯性。
- 带有补偿的多臂赌博机
该论文提出并研究了一种多臂赌博(Multi-arm bandit)问题,即已知补偿的多臂赌博问题,在此问题中,控制器向许多短期玩家提供一组机械臂,玩家在每个时间步骤上挑选最优的机械臂以最大化获得收益,研究结论表明,所提出的算法均实现了与理论 - 深度强化学习
本文概述了深度强化学习的核心元素,机制和应用,讨论了 RL 的背景,价值函数,策略,奖励等关键元素,注意和记忆等重要机制以及包括游戏,机器人,自然语言处理,计算机视觉,金融等在内的应用领域。
- 关系马尔可夫决策过程的一阶决策图
研究证明,使用新的紧凑表示 ——FODD,可以解决 RMDPs,通过 FODDs 操作开发价值迭代算法,并证明该算法完全收敛且具有独立于领域大小或实例化的最佳策略。