图上的归纳奖励推理

Feb, 2024

Transductive Reward Inference on Graph

Bohao Qu, Xiaofeng Cao, Qing Guo, Yi Chang, Ivor W. Tsang...

TL;DR我们研究了基于图的信息传播的奖励推断方法，利用有限人类奖励注释和可用数据构建了奖励传播图，并通过传导推断方法估计未标记数据的奖励，以此改善离线强化学习任务的性能。

Abstract

In this study, we present a transductive inference approach on that reward information propagation graph, which enables the effective estimation of rewards for unlabelled data in →

transductive inference reward inference offline reinforcement learning information propagation graph reward propagation graph

发现论文，激发创造

脱机环境的贝叶斯逆转移学习

利用约束的方法从专家数据中学习变迁动力学的可靠估计来改进线下强化学习，减少策略差异，并结合不确定性估计推断出产生更高回报的行动部分排序和规划更安全和更具信息的策略。

Aug, 2023

拓展转导式知识图嵌入模型用于归纳逻辑关系推理

该研究介绍了一种广义的谐波扩展技术，通过利用传统的跨领域知识图嵌入方法学习的表示，推断引入的新实体在推理时的表示，并扩展了跨领域知识图嵌入方法的功能，可以用于知识图的补全和逻辑查询。

Sep, 2023

用树实现奖励学习：方法和评估

本文探讨了使用可读性更好的树模型进行奖励函数生成的优势，并通过实验证明其在高维复杂任务上具有与神经网络同等的有效性与鲁棒性，并展示其可追溯性、验证性和可解释性。

Oct, 2022

从图论的角度重新思考强化学习及高阶函数中的信息结构：奖励的概括

强化学习与人类反馈存在的三难问题之一是高度多样化的背景、标签成本低和可靠的对齐性能之间的不兼容性。本文通过设计奖励建模期间的数据集信息结构来缓解这种不兼容性，通过将 RLHF 过程形象化为文本分布上的自动编码过程，研究奖励建模阶段中信息结构的性能影响，提出基于随机图理论的新方法来模拟语义空间中的奖励泛化，并验证了树状奖励模型在三个不同的自然语言处理任务上的优越性。

Feb, 2024

生成对抗奖励学习用于泛化行为倾向推断

提出了一种基于生成式逆强化学习的用户行为偏好建模方法，该方法可以自动学习用户的行为奖励函数，并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释，实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。

May, 2021

利用人类好奇心的网络理论进行本质动机的图形探索

通过结合人类好奇心理论，使用基于图神经网络的强化学习来探索图形化数据，这种内部动机探索方法尤其适用于推荐系统

Jul, 2023

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

可学习的物理引擎图网络用于推理和控制

介绍了一种基于图网络的学习模型，实现了对象和关系为中心的表示的归纳偏差，从而能够更准确地预测复杂动态系统的行为，并支持在线与离线规划。

Jun, 2018

一个基于层次贝叶斯的逆强化学习方法，使用符号奖励机器

本研究提出了一种新的 RL 方法，使用符号化奖励机器来增强高级任务知识指定的奖励信号，在确定符号值的情况下，通过贝叶斯方法分层地推断出最可能的分配，可显著提高 RL 训练效率并在不同的任务环境配置中广泛适用。

Apr, 2022

自主推断子任务依赖关系的元强化学习

本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Jan, 2020