SEER: 通过强化学习促进结构化推理和解释
我们首先强调有监督微调在解决这个问题中的局限性,然后介绍了一种精心设计的强化学习中奖励工程方法以更好地解决这个问题,我们研究了多种奖励聚合方法,并提供了详细的讨论,阐明了强化学习在未来研究中的潜在潜力,我们提出的两种半结构化解释生成基准(ExplaGraph 和 COPA-SSE)上的奖励取得了新的最先进结果。
Sep, 2023
本文提出了一种基于强化学习的蕴含树生成框架 RLET,通过句子选择和推理生成模块进行单步推理,并积累整个树的训练信号,实现了针对解释性 QA 中的逻辑推理过程,并且在三个数据集上的实验表明了使用强化学习框架的优点。
Oct, 2022
SEER 是一种选择代表性和多样性的示例集合的新方法,通过将示例选择问题转化为背包整数线性规划问题,通过灵活调整多样性和容量约束条件来提高在 HybridQA 中的性能。在 FinQA 和 TAT-QA 两个真实世界的 HybridQA 基准测试中,SEER 优于先前的示例选择方法。
Oct, 2023
通过结构化感知和关系推理的方法,使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立,提高了强化学习的效率、泛化能力和可解释性,并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。
Jun, 2018
本文研究了如何使用语言描述和解释方式来改善深度强化学习智能体的学习和推理能力,特别是对于复杂环境下的关联结构和因果结构的推断,结果表明该方法可以有效地解决数据分布不清晰和因果混淆等问题。
Dec, 2021
本文介绍了一种新的带有解释性的 Actor-Critic 强化学习模型 A2CR,通过预定义和分类行为的目的,A2CR 自动生成了更全面、可解释的决策模式,从而提供了一系列功能,如基于目的的关键性、早期故障检测和模型监督,以促进负责任和可信任的强化学习。通过在动作丰富的 Super Mario Bros 环境中的评估,发现随着强化学习算法的探索程度加深,Reasoner 预测的标签比例在 “Breakout” 中降低,而在 “Hovering” 中增加。此外,基于目的的关键性更具针对性和可理解性。
Sep, 2023
研究通过元强化学习是否可以发现因果推理,在这项研究中,我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习,证明了该代理可以在新的情况下进行因果推理,从观测数据中得出因果推断结果以及进行反事实预测,我们提出这种学习方法也可以在复杂的推理场景中进行因果推理,同时该工作还提供了新的强化学习结构探索策略。
Jan, 2019
本研究提出了一个框架,用于学习顺序决策任务的可理解模型,通过时间逻辑公式表征代理策略,并使用一个嵌入方法对代理足迹进行聚类,得出在不同的聚类中解释代理策略的逻辑公式,通过编写一个特征提取器和一个可视化工具,对在 StarCraft II 中的战斗场景进行了评估,实验结果表明,本框架可以将代理足迹分为不同的行为组,并为每个行为组提供一致、有意义且易于理解的策略描述。
Aug, 2022