SEER: 通过强化学习促进结构化推理和解释

Jan, 2024

SEER: 通过强化学习促进结构化推理和解释

SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning

Guoxin Chen, Kexin Tang, Chao Yang, Fuying Ye, Yu Qiao...

TL;DR通过提出 SEER 方法，我们在建立问答系统中，给出结构化解释，提高系统的可解释性和可靠性；实验证明，SEER 方法显著优于现有方法，在 EntailmentBank 上的绝对改进率达到了 6.9%，在 STREET 基准上平均提升了 4.4%，同时展现出卓越的效率和跨数据集的泛化性能。

Abstract

Elucidating the reasoning process with structured explanations from question to answer is fundamentally crucial, as it significantly enhances the interpretability and trustworthiness of question-answering (QA) systems. However, →

structured explanations question-answering systems structured reasoning seer method reinforcement learning

发现论文，激发创造

用于生成半结构化解释的奖励工程

我们首先强调有监督微调在解决这个问题中的局限性，然后介绍了一种精心设计的强化学习中奖励工程方法以更好地解决这个问题，我们研究了多种奖励聚合方法，并提供了详细的讨论，阐明了强化学习在未来研究中的潜在潜力，我们提出的两种半结构化解释生成基准（ExplaGraph 和 COPA-SSE）上的奖励取得了新的最先进结果。

Sep, 2023

基于强化学习的推論樹可解释问答方法 (RLET)

本文提出了一种基于强化学习的蕴含树生成框架 RLET，通过句子选择和推理生成模块进行单步推理，并积累整个树的训练信号，实现了针对解释性 QA 中的逻辑推理过程，并且在三个数据集上的实验表明了使用强化学习框架的优点。

Oct, 2022

SEER：一种用于上下文混合问答的背包法示例选择

SEER 是一种选择代表性和多样性的示例集合的新方法，通过将示例选择问题转化为背包整数线性规划问题，通过灵活调整多样性和容量约束条件来提高在 HybridQA 中的性能。在 FinQA 和 TAT-QA 两个真实世界的 HybridQA 基准测试中，SEER 优于先前的示例选择方法。

Oct, 2023

关系深度强化学习

通过结构化感知和关系推理的方法，使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立，提高了强化学习的效率、泛化能力和可解释性，并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。

Jun, 2018

为什么？解释支持学习关系和因果结构

本文研究了如何使用语言描述和解释方式来改善深度强化学习智能体的学习和推理能力，特别是对于复杂环境下的关联结构和因果结构的推断，结果表明该方法可以有效地解决数据分布不清晰和因果混淆等问题。

Dec, 2021

迭代检索生成推理树解释

我们提出了一种名为 IRGR 的体系结构，它结合了检索步骤和生成步骤，能够解释问题回答，生成包含先前中间结论的层级结构，并在预测方面超过先前的基准模型。

May, 2022

知识图谱推理：自我监督强化学习

强化学习通过自我监督预训练方法改进了知识图谱推理任务的性能，解决了动作空间大的挑战和分布不匹配问题，并且超过了现有的最先进结果。

May, 2024

带理由推断的优势演员 - 评论家算法：从探索性视角解释代理行为

本文介绍了一种新的带有解释性的 Actor-Critic 强化学习模型 A2CR，通过预定义和分类行为的目的，A2CR 自动生成了更全面、可解释的决策模式，从而提供了一系列功能，如基于目的的关键性、早期故障检测和模型监督，以促进负责任和可信任的强化学习。通过在动作丰富的 Super Mario Bros 环境中的评估，发现随着强化学习算法的探索程度加深，Reasoner 预测的标签比例在 “Breakout” 中降低，而在 “Hovering” 中增加。此外，基于目的的关键性更具针对性和可理解性。

Sep, 2023

元强化学习推理因果关系

研究通过元强化学习是否可以发现因果推理，在这项研究中，我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习，证明了该代理可以在新的情况下进行因果推理，从观测数据中得出因果推断结果以及进行反事实预测，我们提出这种学习方法也可以在复杂的推理场景中进行因果推理，同时该工作还提供了新的强化学习结构探索策略。

Jan, 2019

强化学习代理策略理解与可视化框架

本研究提出了一个框架，用于学习顺序决策任务的可理解模型，通过时间逻辑公式表征代理策略，并使用一个嵌入方法对代理足迹进行聚类，得出在不同的聚类中解释代理策略的逻辑公式，通过编写一个特征提取器和一个可视化工具，对在 StarCraft II 中的战斗场景进行了评估，实验结果表明，本框架可以将代理足迹分为不同的行为组，并为每个行为组提供一致、有意义且易于理解的策略描述。

Aug, 2022