探索科学情绪摘要的多文档信息整合
该论文介绍了一种用于情感分析的多 LLM 协商框架,其中包括一个推理注入生成器来提供决策及其理由,以及一个评估生成器可信度的解释推导鉴别器,通过迭代使生成器和鉴别器达成一致,从而解决了情感分析中的单一决策缺陷的问题。实验证明,该方法在各种情感分析基准上表现出更好的性能。
Nov, 2023
这项研究通过利用投票算法,提出了一种新的框架 LaMSUM,通过大型语言模型生成用户生成的文本的摘要,结果显示 LaMSUM 优于现有的提取式摘要方法,同时试图解释语言模型生成的摘要产生的原因。
Jun, 2024
我们提出了科学观点总结的任务,并使用新的 ORSUM 数据集和 Checklist-guided Iterative Introspection (CGI²) 方法来实现该任务
May, 2023
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。
Sep, 2023
在多篇文档新闻摘要研究中,以往研究通常集中于整合各个来源都同意的信息。然而,据我们所知,以往尚未研究过涉及同一事件的多篇文章中分散的多样信息的摘要。后者为摘要模型提出了一组不同的挑战。在本文中,我们提出了一个新任务,即摘要涉及同一事件的多篇新闻文章中的多样信息。为了完成这项任务,我们确定了一个用于识别多样信息的数据收集模式,并创建了一个名为 DiverseSumm 的数据集。该数据集包含 245 个新闻故事,每个故事包括 10 篇新闻文章,并配有人工验证的参考摘要。此外,我们进行了全面的分析,以确定基于大型语言模型(LLM)的度量标准在评估摘要的全面性和忠实度时存在的位置和冗长偏差,以及它们与人工评估的相关性。我们应用我们的发现来研究 LLMs 如何通过分析 LLMs 能够识别哪种类型的多样信息来摘要多篇新闻文章。我们的分析表明,尽管 LLMs 在单篇文档摘要方面具有非凡的能力,但对于他们来说,所提出的任务仍然是一个复杂的挑战,主要是由于他们的覆盖范围有限,GPT-4 只能够平均覆盖不到 40% 的多样信息。
Sep, 2023
通过案例研究,使用 GPT-3.5、LLaMA2 和 PaLM2 等三种大型语言模型根据 TELeR 分类法的不同类型 / 级别的引导,自动生成学术同行评审中的元评审,然后对元评审进行详细的定性研究,总结了在这一复杂任务中为大型语言模型提供引导的发现和建议。
Feb, 2024
提出了一种旨在提供学术评论综述的简明方法,该方法通过引入新颖的唯一性评分来提取评论中相关的句子,从而提供一个全面而平衡的观点,并在人类评估中显示出比基准方法更有区别性的摘要,并在自动评价指标方面具有可比较的性能。
Jun, 2024