多模态长文摘要特征分析：金融报告案例研究

Apr, 2024

多模态长文摘要特征分析：金融报告案例研究

Characterizing Multimodal Long-form Summarization: A Case Study on Financial Reports

Tianyu Cao, Natraj Raman, Danial Dervovic, Chenhao Tan

TL;DR通过对财务报告摘要化的案例研究，我们提出了一种计算框架，用于表征多模态长文本摘要，并研究了 Claude 2.0/2.1、GPT-4/3.5 和 Command 的行为。我们发现 GPT-3.5 和 Command 无法有效地完成这个摘要任务，而 Claude 2 和 GPT-4 在摘要的提取性上存在偏差。随机打乱输入后，Claude 的位置偏见消失，这表明 Claude 有识别重要信息的能力。我们还对 LLM 生成的摘要中的数量数据进行了全面调查，并提供了数量幻觉的分类。我们尝试通过提示工程来改善 GPT-4 对数字的使用，但成功有限。总体而言，我们的分析凸显出 Claude 2 在处理长的多模态输入方面的强大能力，相较于 GPT-4。

Abstract

As large language models (LLMs) expand the power of natural language processing to handle long inputs, rigorous and systematic analyses are necessary to understand their abilities and behavior. A salient application is summarization, due to its ubiquity and controversy (e.g., researche

large language models financial report summarization multimodal long-form summarization position bias numeric hallucination

发现论文，激发创造

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

C2F-FAR 与 ChatGPT 构建的混合式长文本摘要：一项实证研究

本文介绍了一个使用 ChatGPT 和 C2F-FAR 提出的混合抽取和摘要文本的流程，可以用于长篇文章和书籍。机器生成的摘要可以与人工摘要在自动化评估指标下表现得一样好，但在文本连贯性、忠实度和风格等方面仍存在问题。因此，我们认为 ChatGPT 还不够成熟。这项工作为 NLP 研究人员提供了有关 ChatGPT 在文本摘要方面的能力与实践需求的重要信息，促进进一步研究。

Jun, 2023

大型语言模型摘要能适应多样化的科学沟通目标吗？

研究大型语言模型在科学摘要任务上的可控性问题，通过控制文体特征发现没有经过微调的大型语言模型在 MuP 评审生成任务方面优于人类，同时表明我们可以通过基于关键词的无分类器引导来提高语言模型的可控性，从而在 arXiv 和 PubMed 上实现与强基线的词汇重叠相当的结果。然而，研究结果还表明大型语言模型无法一致生成超过 8 个句子的长摘要，且在生成高度抽象的通俗摘要方面存在有限能力，因此在领域特定应用中，仍然存在着需要昂贵微调才能解决的问题。

Jan, 2024

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

Summaformers @ LaySumm 20, LongSumm 20

本文探讨了利用 Transformer-based 系统概括多领域科学研究论文的问题，并设计了两种不同类型的概述手段，即 LaySumm 和 LongSumm，使用 ROUGE 指标有效评估了本文系统的优越性。

Jan, 2021

临床文本摘要：大型语言模型的应用能超越人类专家

在本研究中，我们采用八个大型语言模型，在六个数据集和四个不同的摘要任务（放射学报告、患者问题、进展记录和医生 - 患者对话）上应用领域适应方法，系统评估了它们的效果，而且展示出最佳适应的大型语言模型的摘要相较于人工摘要在完整性和正确性方面更可取。此外，我们还将传统的自然语言处理指标与医生评分进行了相关性分析，以提高对这些指标与医生喜好的理解。最终，我们的研究证明了大型语言模型在多个临床文本摘要任务中超越人工专家，这意味着将大型语言模型整合到临床工作流程中可以减轻文档负担，使临床医生能够更多关注个性化患者护理和其他医学中不可替代的人工环节。

Sep, 2023

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

TriSum: 从大型语言模型中学习结构化理由的文摘能力

通过 TriSum 框架，我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型，以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习，我们的方法在各个评估基准上提升了本地化模型的性能，并提供了摘要的合理解释。

Mar, 2024

探索基于 ChatGPT 的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了 ChatGPT 生成的摘要与人类参考的差异，并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023

阅读深层意义：利用作者进行短篇小说梗概评估大型语言模型

最近的大型语言模型在总结短篇小说这一具有挑战性的任务上进行评估，结果显示这些模型在超过 50% 的总结中存在不忠实的错误，并且对于难以解释的含义也有困难，然而在最好的情况下，这些模型可以提供有思考深度的故事主题分析，并且我们还证明了语言模型对总结质量的评判与作者的反馈不一致。

Mar, 2024