通过自监督回归学习策略网络,提出了一种基于监督损失函数训练深度强化学习智能体的算法 (SSRL),该算法无需策略梯度或价值估计,能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美,展示了利用监督学习技术解决强化学习问题的潜力。
Jun, 2021
本研究提出了一种新型的自监督关系式推理算法,通过学习如何区分实体之间的关系,使得在底层神经网络骨干中具备丰富的关系描述能力。该算法在标准数据集、协议和骨干模型上的实验结果表明,它的准确性比现行同类算法平均提高 14%,比最近的最先进算法提高 3%,对提高下游任务的表现非常有效。
Jun, 2020
该文综述了利用知识表示与推理方法在强化学习中更抽象表现和更有效学习的领域中取得的进展和应用,并讨论了未来在此领域中需要解决的挑战和可能的方向。
Apr, 2023
本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足,为仍处于离线状态的推荐者提供强大的梯度信号支持,其中包括两个输出层;一个用于自我监督,另一个用于强化学习,从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。
本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明,这种学习到的子空间可实现高效探索,并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升,特别是在环境复杂性增加的情况下。
Apr, 2020
本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能,并结合最先进的 Q-learning 技术,通过平滑学习到的状态 - 动作空间,实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。
Mar, 2021
利用强化学习和 BERT 嵌入来改进多跳知识图谱推理的方法,以提高知识图谱推理的准确性和鲁棒性。
Mar, 2024
本文提出了一种名为策略引导路径推理(PGPR)的方法,将推荐和可解释性结合起来,并在知识图中提供实际路径,通过明确的推理过程生成和支持推荐,同时实现了强化学习和策略引导图搜索算法。在多个实际数据集的评估中,与现有的最先进方法相比,获得了良好的结果。
Jun, 2019
提出了一种新颖的强化学习引导的半监督学习方法 RLGSSL,将半监督学习视为一个老虎机问题,并通过加权奖励的创新 RL 损失来自适应地指导预测模型的学习过程,通过在多个基准数据集上进行广泛实验表明,相较于最先进的半监督学习方法,我们的方法始终具有更好的性能。
May, 2024
本文提出一种名为知识引导强化学习(KGRL)的框架,该框架采用一种基于嵌入式的注意机制,可以在训练和推理阶段中灵活地改编、重新排列和重复使用外部知识,使得 RL 智能体更受社会接受,并在离散和连续动作空间的任务中展现出更高的样本效率和可解释性。
Oct, 2022