- 深度 Q 学习中行动泛化差距的表征
该研究研究了深度强化学习中离散行动空间中的行动泛化能力,发现 Deep Q-Networks 仍能以较小的行动泛化差异在简单领域中实现行动泛化
- 拓扑经验重放
本文提出了一种基于图的 Q 学习方法,通过对状态间 Q 值依赖进行跟踪并进行宽度优先处理,能够更加高效地使用有限的经验来更新 Q 值,并在多个任务上获得了比传统方法更好的效果。
- 使用深度 Q 学习的销售时间序列分析
本文研究了使用深度 Q - 学习模型解决销售时间序列分析问题,发现可以通过使用基于参数模型和历史数据的环境建模来优化决策过程,以实现定价策略和供需问题的优化。
- 可逆行动设计与强化学习在组合优化中的应用
利用图神经网络和深度 Q 学习的强化学习方法,针对组合优化问题提出了一种无需问题特定设计即可实现状态最优化策略搜索的通用模型,并在最大 k-Cut 问题和旅行商问题上实验验证了其优越性。
- AAAIQ-Learning 的稳定 Transformer-based 动作序列生成
本文提出了一种基于 Transformer 的 Deep Q-Learning 方法,该方法在稳定性和 Atari 基准方面表现良好,并为探究 Transformer 与强化学习之间的关系提供了额外见解。
- KDD深度主动推断用于部分可观测的马尔可夫决策过程
本文介绍了一种基于 Deep Active Inference 的深度学习架构,结合 Variational Autoencoder 编码连续状态表示,可以直接从高维感觉输入中学习成功策略,并在 OpenAI 基准测试中证明其与深度强化学习 - KDDTable2Charts: 通过学习共享表格表示推荐图表
本文介绍了一个名为 Table2Charts 的框架,通过深度 Q 学习和启发式搜索实现了表格数据到图表的自动生成,它能够在考虑数据分布和表格上下文信息的情况下推荐生成符合数据特点的图表,并在 165k 表格和 266k 图表的大型数据集上 - AAAI指引我们:从演示中学习对话管理
我们对第八次对话系统技术挑战赛的端到端多域对话跟踪进行了提交。我们的系统采用管道架构,包含自然语言理解、对话状态跟踪、对话管理和自然语言生成等组件。我们利用基于示范的深度 Q 学习强化学习算法来学习对话策略,并通过对话管理组件的评估表明该方 - ICLR即使初值悲观 也能进行乐观探索
提出在深度强化学习中使用基于计数的方法将 Q 值初始化为悲观值,并对其进行优化增强,实现对于探索和推广状态 - 动作对的乐观估计,并在硬探索任务中胜过了使用伪计数方法的非乐观深度 Q-Learning 变种。
- AAAI产品分配的空间需求的概率模拟器
本文介绍了一种基于随机模型的实体零售中的空间需求分析方法,此模型能够有效地预测产品需求并通过深度强化学习自主学习最优的产品摆放策略。
- AAAI社区认知一致的多智体强化学习
本论文将邻域认知一致性引入到多智能体强化学习中,提出了邻域认知一致性深度 Q-learning 和 Actor-Critic,实验结果表明该方法优于现有的多智能体强化学习方法。
- 使用偏度感知强化学习来减少人脸识别中的偏见
通过提出自适应边界的想法,构建了一个基于深度 Q 学习的 Race Balance Network (RL-RBN) 以及两个面部识别数据集,用以研究数据和算法层面的种族偏差,实验结果表明该方法成功减小了种族偏差并且学习到了更平衡的表现。
- 基于分离的深度 Q-Learning 算法实现鲁棒的物体分离
本文提出了一种推动策略,目的是通过相邻物体和目标物体的横向推动来解决在杂乱环境中从一堆其他物体中提取目标物体的机器人操作问题,使用 DQN 深度强化学习学习最优的推动策略,利用 Split DQN 来提高学习速率和增加算法的模块化。实验证明 - rlpyt:基于 PyTorch 的深度强化学习研究代码库
简介:本文介绍了 rlpyt,该代码库通过单一存储库实现了所有深度强化学习算法,包括深度 Q-learning、策略梯度和 Q-value 策略梯度模型,使用 PyTorch 实现模块化。
- 利用地图熟悉、课程学习和赌徒反馈学习基于文本冒险游戏的系列
本研究探讨了如何应用深度强化学习策略来让计算机代理学会玩一类由文本组成的冒险游戏,并使用基于人类学习行为的简单策略如课程学习、导航探索和多臂赌博来提高游戏的任务完成率。
- 探索深度强化学习中的差异化特征
基于线性近似 Q 值更新的分析方法,提出一种稳定的深度 Q 学习算法,不需要传统的技巧(如目标网络、自适应梯度优化器或使用多个 Q 函数)就能实现连续控制,并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。
- 深度强化学习的信息导向探索
本文提出了一种基于信息导向采样的探索策略,结合分布式强化学习的方法,应对异方差性观测噪声与参数不确定性的挑战,并在 Atari 游戏中展示出比传统策略显著的改进。
- 双重深度 Q 学习用于最优执行
采用 Deep Q-Learning 算法,基于当前的交易信号和订单簿信息预测股票交易的最佳行动方案,并在九种不同的股票上进行了实验,在大多数股票上优于标准基准方法,且表现以超额收益率、超额率和收益 - 损失比为优。
- 基于实时信息的绿色安全游戏的深度强化学习
本研究提出了一种新的游戏模型 GSG-I,结合了顺序移动和实时信息等关键元素,设计了基于双预言机框架和策略空间响应预言机的深度强化学习算法 DeDOL 来计算巡逻策略,以对抗最佳响应的攻击者,探索游戏结构使用领域特定启发式策略和构建多个局部 - 使用深度强化学习进行分类的视频摘要
本研究提出了基于增强学习的弱监督视频摘要方法,利用易于获得的视频级别类别标签,并通过训练深度 Q 学习(DQSN)的摘要网络,鼓励摘要包含类别相关信息和保持类别识别性。实验结果表明,该方法在两个基准数据集上均达到了最先进的性能。