深入研究索赔分解
本研究关注于将复杂的政治要求分解为全面的是非子问题,通过回答这些问题来判断政治要求的真实性,提供了 ClaimDecomp 数据集和一种训练好的注释方法来研究最先进的模型生成此类子问题,这些子问题可以帮助找到相关证据以审核整个要求并推导真实性。
May, 2022
本文提出了一种分解复杂语句为简单子问题,并以程序为指导构建伪数据集进行分解模型训练的方法,从而增强事实验证模型的中间证据,通过实验证明,在 TabFact 基准测试中取得了 82.7%的最新最佳性能。
Sep, 2021
通过将问题分解为子问题,强迫模型在不同的上下文中回答简单的子问题,可以显著提高模型生成推理的可靠性,并在一定程度上提升效能,从而有望验证 LLM 行为的正确性和安全性。
Jul, 2023
本文介绍了一种针对大型语言模型生成的答案自我评估技术,即 ABCD,该技术通过将复杂问题分解为一系列真假命题来验证模型生成的答案是否满足所有的问题标准, 并进行精细化评估,实验证明该技术可以帮助发现模型的错误和知识盲区。
May, 2023
Large Language Models 的元评估问题是如何可靠地评估生成文本的一个关键研究问题。为了解决这一挑战,提出了 Decompose and Aggregate 方法,将评估过程分解为不同阶段,从而提供了更可解释的界面,并在多个元评估基准上实现了多种 Large Language Models 的评估性能提升高达 39.6%。
May, 2024
本文提出了一种简单而有效的度量方法 DecompEval,该方法在自然语言生成(NLG)评估中使用了指令调整的预训练语言模型,以提高其泛化能力和可解释性。实验结果表明,DecompEval 在未训练的度量标准中取得了最先进的性能,适用于评估文本摘要和对话生成的各种任务和评估维度,并具有较强的泛化能力和可解释性。
Jul, 2023
本文研究大规模中介设备的预训练,在使用来自可比文本,特别是大规模平行新闻的远程监督的情况下将显式分解建模应用于自然语言理解系统。作者称使用这种中间预训练可以更容易地开发强大的显式分解模型。例如,该模型在语义分析方面取得了 20%至 30%的改进,并用于构建名为 DecompEntail 的新型显式分解问答系统。
Oct, 2022
本文探讨使用文本风格转换框架来有效分解不同方面的文本信息的潜在表示,并提出了几种经验方法来评估信息分解的质量,通过与几种最先进的文本风格转换方法验证了这些方法。 信息分解质量的提高与输出和人类编写的改写之间的双语评估的 BLEU 分数表现出了相关性。
Sep, 2019
本文使用大型语言模型对表格推理进行了分解,针对表格中的冗余信息,将大的表格分解为小的子表格进行推理,同时将复杂问题分解为简单子问题进行文本推理,实验结果表明,本方法在多个数据集上都表现出色并首次超越人类在 TabFact 数据集上的表现。
Jan, 2023