知识图谱推理：自我监督强化学习

May, 2024

知识图谱推理：自我监督强化学习

Knowledge Graph Reasoning with Self-supervised Reinforcement Learning

Ying Ma, Owen Burns, Mingqiu Wang, Gang Li, Nan Du...

TL;DR强化学习通过自我监督预训练方法改进了知识图谱推理任务的性能，解决了动作空间大的挑战和分布不匹配问题，并且超过了现有的最先进结果。

Abstract

reinforcement learning (RL) is an effective method of finding reasoning pathways in incomplete knowledge graphs (KGs). To overcome the challenges of a large action space, a self-supervised pre-training method is

reinforcement learning self-supervised pre-training distributional mismatch state-of-the-art knowledge graph reasoning

发现论文，激发创造

自监督简化深度强化学习

通过自监督回归学习策略网络，提出了一种基于监督损失函数训练深度强化学习智能体的算法 (SSRL)，该算法无需策略梯度或价值估计，能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美，展示了利用监督学习技术解决强化学习问题的潜力。

Jun, 2021

自监督关系推理的表示学习

本研究提出了一种新型的自监督关系式推理算法，通过学习如何区分实体之间的关系，使得在底层神经网络骨干中具备丰富的关系描述能力。该算法在标准数据集、协议和骨干模型上的实验结果表明，它的准确性比现行同类算法平均提高 14％，比最近的最先进算法提高 3％，对提高下游任务的表现非常有效。

Jun, 2020

知识表示与推理的强化学习：简要综述

该文综述了利用知识表示与推理方法在强化学习中更抽象表现和更有效学习的领域中取得的进展和应用，并讨论了未来在此领域中需要解决的挑战和可能的方向。

Apr, 2023

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

可控行为的弱监督强化学习

本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Apr, 2020

S4RL：离线强化学习的惊人简单自监督

本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能，并结合最先进的 Q-learning 技术，通过平滑学习到的状态 - 动作空间，实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。

Mar, 2021

通过奖励塑造技术增强多跳知识图推理

利用强化学习和 BERT 嵌入来改进多跳知识图谱推理的方法，以提高知识图谱推理的准确性和鲁棒性。

Mar, 2024

可解释推荐的增强知识图谱推理

本文提出了一种名为策略引导路径推理（PGPR）的方法，将推荐和可解释性结合起来，并在知识图中提供实际路径，通过明确的推理过程生成和支持推荐，同时实现了强化学习和策略引导图搜索算法。在多个实际数据集的评估中，与现有的最先进方法相比，获得了良好的结果。

Jun, 2019

强化学习引导的半监督学习

提出了一种新颖的强化学习引导的半监督学习方法 RLGSSL，将半监督学习视为一个老虎机问题，并通过加权奖励的创新 RL 损失来自适应地指导预测模型的学习过程，通过在多个基准数据集上进行广泛实验表明，相较于最先进的半监督学习方法，我们的方法始终具有更好的性能。

May, 2024

知识驱动强化学习

本文提出一种名为知识引导强化学习（KGRL）的框架，该框架采用一种基于嵌入式的注意机制，可以在训练和推理阶段中灵活地改编、重新排列和重复使用外部知识，使得 RL 智能体更受社会接受，并在离散和连续动作空间的任务中展现出更高的样本效率和可解释性。

Oct, 2022