图上的归纳奖励推理
利用约束的方法从专家数据中学习变迁动力学的可靠估计来改进线下强化学习,减少策略差异,并结合不确定性估计推断出产生更高回报的行动部分排序和规划更安全和更具信息的策略。
Aug, 2023
该研究介绍了一种广义的谐波扩展技术,通过利用传统的跨领域知识图嵌入方法学习的表示,推断引入的新实体在推理时的表示,并扩展了跨领域知识图嵌入方法的功能,可以用于知识图的补全和逻辑查询。
Sep, 2023
本文探讨了使用可读性更好的树模型进行奖励函数生成的优势,并通过实验证明其在高维复杂任务上具有与神经网络同等的有效性与鲁棒性,并展示其可追溯性、验证性和可解释性。
Oct, 2022
强化学习与人类反馈存在的三难问题之一是高度多样化的背景、标签成本低和可靠的对齐性能之间的不兼容性。本文通过设计奖励建模期间的数据集信息结构来缓解这种不兼容性,通过将 RLHF 过程形象化为文本分布上的自动编码过程,研究奖励建模阶段中信息结构的性能影响,提出基于随机图理论的新方法来模拟语义空间中的奖励泛化,并验证了树状奖励模型在三个不同的自然语言处理任务上的优越性。
Feb, 2024
提出了一种基于生成式逆强化学习的用户行为偏好建模方法,该方法可以自动学习用户的行为奖励函数,并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释,实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。
May, 2021
本研究提出了一种新的 RL 方法,使用符号化奖励机器来增强高级任务知识指定的奖励信号,在确定符号值的情况下,通过贝叶斯方法分层地推断出最可能的分配,可显著提高 RL 训练效率并在不同的任务环境配置中广泛适用。
Apr, 2022
本文提出了一种新颖的少样本强化学习问题,其通过任务的子任务图描述一组子任务及其依赖关系,我们开发了一种元学习器,即消息传递子任务图推理器(MSGI),该学习器通过与环境交互推断任务的潜在参数,并采用上限置信界中得到启发的内在奖励以促进有效探索,实验结果表明该方法能够准确推断潜在任务参数, 并比现有的元强化学习和分层强化学习方法更有效地适应。
Jan, 2020