AdaptEval：针对文本摘要的领域适应评估大型语言模型

Jul, 2024

AdaptEval：针对文本摘要的领域适应评估大型语言模型

AdaptEval: Evaluating Large Language Models on Domain Adaptation for Text Summarization

Anum Afzal, Ribin Chalumattu, Florian Matthes, Laura Mascarell Espuny

TL;DR使用大型语言模型（LLM）进行抽象概括任务虽然取得了进展，但缺乏评估其在不同领域中适应能力的研究。我们评估了多种LLM模型在不同领域下的领域适应能力，包括精调和上下文学习设置。我们还提出了AdaptEval，即首个领域适应评估套件。AdaptEval包括领域基准和一组指标，以便分析领域适应。我们的结果表明，LLM在上下文学习设置中表现出可比较的性能，并不受其参数规模的影响。

Abstract

Despite the advances in the abstractive summarization task using large language models (LLM), there is a lack of research that asses their abilities to easily adapt to different domains. We evaluate the

发现论文，激发创造

领域适应效应对神经抽象摘要的试点研究

研究了神经抽象摘要的领域适应问题，发现预训练模型利用提取式摘要可以提高摘要质量，同时结合域内和域外数据可以获得更好的摘要效果，但对于目标领域的风格要求域内数据。

Jul, 2017

预训练变形金刚模型在抽象摘要中的有效适应性

本文探讨使用预训练的Transformer语言模型来进行文本摘要的实现，提出了基于源嵌入和领域自适应训练的方法，并在三个摘要数据集上进行了测试，并在其中两个数据集上取得了新的最佳表现。结果表明，该方法能够产生更专注的摘要，并且对于更抽象的数据集表现得更加明显。

Jun, 2019

AdaptSum: 面向低资源域自适应的摘要生成

本研究探讨了在低资源环境下，针对六个不同领域的抽象摘要任务中，利用大规模生成模型进行领域自适应预训练的有效性。实验表明，预训练的有效性与预训练数据与目标任务的相似度相关，同时发现预训练会导致预训练模型的灾难性遗忘，但使用一种遗忘较少的学习方法可以缓解这个问题。此外，结果表明低资源和高资源的差距仍然很大，需要更先进的领域自适应方法来解决抽象摘要任务中的问题。

Mar, 2021

自适应还是微调：抽象概括案例研究

本文对使用fine-tuning和adapters在不同复杂性的摘要任务中进行了多方面的研究，并且研究发现fine-tuning通常比使用adapters获得更好的性能，而adapters在极低资源条件下超越fine-tuning。

Aug, 2022

AdapterSoup: 利用权重平均来提高预训练语言模型的泛化能力

介绍了一种称为AdapterSoup的方法，通过对具有不同超参数的预训练语言模型适配器进行权重平均化从而提高在新领域的性能，同时使用文本聚类等方法选择哪些适配器进行组合，有效解决了在资源受限或领域特定问题下适配器训练的实践性问题。

Feb, 2023

大型语言模型是否适合作为抽象概括的评估器？

本文旨在探讨使用 LLMS（例如“gpt-3.5-turbo”）作为自动评估器来评估摘要的性能，并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高LLM的性能，并讨论了LLM的评估能力随摘要质量和评估维度的变化。

May, 2023

通过扩展文本阅读理解提高领域适应性

通过使用领域特定的语料库继续预训练，结合基于正则表达式的模式处理阅读理解数据，以及引入LMM和聚类技术来增强阅读理解，本研究方法在领域特定任务上取得了超过5%的改进。

Jan, 2024

灵活适应的摘要生成技术通过专家分离

通过使用MoeSumm，一种混合专家摘要架构，该模型能够展现灵活性和适应性，同时保持参数效率，并在实验结果中显示了其与最新基准和大型语言模型相比的优势。

Jun, 2024

词汇的重要性：什么影响了摘要的领域适应性？

通过分析训练数据中的`词汇'对总结任务的具体影响，本文研究细粒度因素对于领域适应性能的影响，并提出将数据集学习难度量化为生成式总结的学习难度，并得出跨域重叠与总结任务的性能增益之间存在近似线性关系的实验结论，从而实现对未知领域数据集模型性能的预测而无需经过训练。

Jun, 2024

DomainSum：用于细粒度领域转移的抽象文本摘要分层基准

本研究解决了抽象摘要中对领域转移影响的忽视问题，提出了一个名为DomainSum的分层基准，以捕捉细粒度领域转移。研究表明，不同领域转移的影响遵循层级结构，并评估了常用的预训练语言模型（PLMs）和大型语言模型（LLMs）在不同领域中的泛化能力。

Oct, 2024