深入研究索赔分解

Mar, 2024

A Closer Look at Claim Decomposition

Miriam Wanner, Seth Ebner, Zhengping Jiang, Mark Dredze, Benjamin Van Durme

TL;DR研究探讨了生成文本的外部知识支持度评估方法，发现该评估方法对于存证方法的选择非常敏感，并提出了一种改进方法来提高分解质量。

Abstract

As generated text becomes more commonplace, it is increasingly important to evaluate how well-supported such text is by external knowledge sources. Many approaches for evaluating textual support rely on some meth

generated text textual support claim decomposition factscore decompscore

发现论文，激发创造

重新审视用于基于 NLI 的摘要事实评分的文本分解方法

本文系统地比较了将事实性分值应用于分解的不同粒度，并表明不是所有数据集都适用于将上下文信息集成到模型中的方法。

Nov, 2022

生成针对复杂主张进行事实检查的字面和隐含子问题

本研究关注于将复杂的政治要求分解为全面的是非子问题，通过回答这些问题来判断政治要求的真实性，提供了 ClaimDecomp 数据集和一种训练好的注释方法来研究最先进的模型生成此类子问题，这些子问题可以帮助找到相关证据以审核整个要求并推导真实性。

May, 2022

基于表格的事实验证探索分解

本文提出了一种分解复杂语句为简单子问题，并以程序为指导构建伪数据集进行分解模型训练的方法，从而增强事实验证模型的中间证据，通过实验证明，在 TabFact 基准测试中取得了 82.7％的最新最佳性能。

Sep, 2021

问题分解提高模型生成推理的可信度

通过将问题分解为子问题，强迫模型在不同的上下文中回答简单的子问题，可以显著提高模型生成推理的可靠性，并在一定程度上提升效能，从而有望验证 LLM 行为的正确性和安全性。

Jul, 2023

掌握复杂问题 ABCD：基于答案的主张分解进行细粒度自我评估

本文介绍了一种针对大型语言模型生成的答案自我评估技术，即 ABCD，该技术通过将复杂问题分解为一系列真假命题来验证模型生成的答案是否满足所有的问题标准，并进行精细化评估，实验证明该技术可以帮助发现模型的错误和知识盲区。

May, 2023

分解和聚合：一种逐步解释的评估框架

Large Language Models 的元评估问题是如何可靠地评估生成文本的一个关键研究问题。为了解决这一挑战，提出了 Decompose and Aggregate 方法，将评估过程分解为不同阶段，从而提供了更可解释的界面，并在多个元评估基准上实现了多种 Large Language Models 的评估性能提升高达 39.6%。

May, 2024

DecompEval：以无监督分解的问答方式评估生成文本

本文提出了一种简单而有效的度量方法 DecompEval，该方法在自然语言生成（NLG）评估中使用了指令调整的预训练语言模型，以提高其泛化能力和可解释性。实验结果表明，DecompEval 在未训练的度量标准中取得了最先进的性能，适用于评估文本摘要和对话生成的各种任务和评估维度，并具有较强的泛化能力和可解释性。

Jul, 2023

学会分解：基于可比文本的假想问题分解

本文研究大规模中介设备的预训练，在使用来自可比文本，特别是大规模平行新闻的远程监督的情况下将显式分解建模应用于自然语言理解系统。作者称使用这种中间预训练可以更容易地开发强大的显式分解模型。例如，该模型在语义分析方面取得了 20％至 30％的改进，并用于构建名为 DecompEntail 的新型显式分解问答系统。

Oct, 2022

文本风格转换中的信息分解

本文探讨使用文本风格转换框架来有效分解不同方面的文本信息的潜在表示，并提出了几种经验方法来评估信息分解的质量，通过与几种最先进的文本风格转换方法验证了这些方法。信息分解质量的提高与输出和人类编写的改写之间的双语评估的 BLEU 分数表现出了相关性。

Sep, 2019

大型语言模型是多才多艺的分解器：为基于表格的推理分解证据和问题

本文使用大型语言模型对表格推理进行了分解，针对表格中的冗余信息，将大的表格分解为小的子表格进行推理，同时将复杂问题分解为简单子问题进行文本推理，实验结果表明，本方法在多个数据集上都表现出色并首次超越人类在 TabFact 数据集上的表现。

Jan, 2023