用于生成半结构化解释的奖励工程

Sep, 2023

用于生成半结构化解释的奖励工程

Reward Engineering for Generating Semi-structured Explanation

Jiuzhou Han, Wray Buntine, Ehsan Shareghi

TL;DR我们首先强调有监督微调在解决这个问题中的局限性，然后介绍了一种精心设计的强化学习中奖励工程方法以更好地解决这个问题，我们研究了多种奖励聚合方法，并提供了详细的讨论，阐明了强化学习在未来研究中的潜在潜力，我们提出的两种半结构化解释生成基准（ExplaGraph 和 COPA-SSE）上的奖励取得了新的最先进结果。

Abstract

semi-structured explanation depicts the implicit process of a reasoner with an explicit representation. This explanation highlights how available information in a specific query is supplemented with information a

semi-structured explanation reasoner generative capabilities language models reinforcement learning

发现论文，激发创造

SEER: 通过强化学习促进结构化推理和解释

通过提出 SEER 方法，我们在建立问答系统中，给出结构化解释，提高系统的可解释性和可靠性；实验证明，SEER 方法显著优于现有方法，在 EntailmentBank 上的绝对改进率达到了 6.9%，在 STREET 基准上平均提升了 4.4%，同时展现出卓越的效率和跨数据集的泛化性能。

Jan, 2024

大语言模型的解释提升小推断者的性能

利用大型语言模型的自由文本解释来提高小型模型的推理能力，将有助于实现可解释的 AI，并可以在理解所做的预测的过程中生成高质量的解释。

Oct, 2022

通过半监督蕴涵信号实现合理提取的理由化

通过在部分监督下基于自然语言推理模型对合理性解释模型进行了优化，无需访问真实标签，提高了性能，并实现了与监督提取模型相当的结果和优于无监督方法 100% 以上的性能。

Feb, 2024

ReFT: 强化微调推理

通过增强学习和在线增强学习的组合，提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力，以数学问题求解为例，通过学习多个标注的推理路径，显著提高了性能。

Jan, 2024

ExaRanker: 解释增强型神经排名器

本文研究表明：在输出答案之前，引导大型语言模型生成解释是提高推理任务性能的有效策略；本研究还发现神经排名器也受益于解释。我们使用像 GPT-3.5 这样的大型语言模型对检索数据集进行增强，并训练一个序列到序列的排名模型，输出给定查询 - 文档对的相关性标签和解释。我们的模型，ExaRanker，在少量带有合成解释的示例上微调，性能与在 3 倍更多没有解释的示例上微调的模型相当。此外，ExaRanker 模型在排名过程中不产生额外的计算成本，可以按需请求解释。

Jan, 2023

利用解释作为潜在变量实现可解释的自然语言理解

本文提出了一种可解释自然语言理解的框架，使用一小部分人类注释的解释进行训练，并采用变分 EM 方法进行优化，同时提出了基于解释的自训练方法，在两个自然语言理解任务上进行实验，证明了该框架不仅可以在监督和半监督设置下进行有效的预测，还可以生成良好的自然语言解释。

Oct, 2020

基于解释的微调使模型对虚假线索更加鲁棒

本文提出了基于解释的微调作为一种缓解大型语言模型依赖错误相关的新颖通用方法，并在人工构建的训练集上微调模型，使其更加强壮。与标准微调不同，我们不仅仅针对输入进行预测，还微调模型以生成支持其答案的自由文本解释。与标准微调相比，我们的方法在四个分类任务中使模型对伪线索具有明显更强的稳健性。此外，我们的方法同样适用于由模型生成的解释，暗示了其在更多数据集上的适用性。

May, 2023

语义角色标注的结构调整

本文提出了一种结构调整框架，以在训练时通过软化约束来提高模型性能，利用神经网络的表达能力和具有结构化损失的监督学习组件，通过实验证明可以在语义角色标注任务中取得比 RoBERTa 等基线更好的结果，并在低资源情况下实现了持续改进。

May, 2020

自主探索避免陷阱：以细粒度奖励提升语言模型的推理能力

通过自主探索（Self-Explore）的方法，研究自动增强规划模型（LLMs）的推理能力，并与监督式微调相比，在 GSM8K 和 MATH 测试集上分别平均取得 11.57％和 2.89％的改进。

Apr, 2024

基于知识的自我合理化：通过抽取和自然语言解释

介绍了一种自我合理化的框架 RExC，旨在提供两种互补类型的解释（NLE 和提取合理），并将其与背景知识结合起来，从而达到了任务最新水平的性能，并大幅度领先于现有模型，同时进行干扰分析表明，解释与预测之间存在高度的关联性。

Jun, 2021