百川 2-Sum: 对话摘要的 Baichuan2-7B 模型的指令微调

Jan, 2024

百川 2-Sum: 对话摘要的 Baichuan2-7B 模型的指令微调

Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization

Jianfei Xiao, Yancan Chen, Yimin Ou, Hanyi Yu, Yiyong Xiao

TL;DR提出了一种使用 Baichuan2-Sum 模型进行以角色为导向的对话总结，并通过 NEFTune 技术进行训练以提高结果，在 CSDS 和 SAMSUM 两个公开对话总结数据集上获得了最新的最先进结果。

Abstract

large language models (LLMs) like Llama, Baichuan and Bloom models show remarkable ability with instruction fine-tuning in many natural language tasks. Nevertheless, for the →

large language models dialogue summarization instruction fine-tuning role-oriented neftune technique

发现论文，激发创造

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

SWING: 对话摘要的覆盖率和准确性的平衡

研究利用自然语言推理（NLI）模型来提高对话摘要的覆盖率和忠实度，通过计算细粒度训练信号，产生内容在参考摘要中未被涵盖，并且区分生成的句子是与事实一致或不一致的，通过 DialogSum 和 SAMSum 数据集的实验证实该方法的有效性，并通过自动度量和人类评估进行验证，另外，评估三个不同维度的对话摘要，计算常用自动度量与人类判断之间的相关性，以提供有关最适合评估对话摘要的度量标准的见解。

Jan, 2023

DialogLM: 面向长对话理解和摘要的预训练模型

本文提出了一种用于长对话理解和摘要的预训练框架，其中包括以窗口为基础的去噪方法和稀疏注意力机制，并通过实验表明 DialogLM 预训练模型显著优于现有的模型。

Sep, 2021

面向领域的去噪序列到序列模型微调在自然语言摘要中的应用

通过自然语言处理技术，对长文本数据进行自动摘要，采用数据增强和微调等策略进行优化，可以大幅提高摘要的准确性，本文采用最先进的 NLP 模型 BART 进行研究，并提供了一种端到端的优化策略，使得在金融、医疗或其他特定领域的数据上，其 ROUGE-1 指标达到了绝对提升 5-6% 的水平。

Apr, 2022

使用伪重述的方式进行后训练对话摘要

该论文提出了一种基于预训练语言模型转换对话到叙述语言的技术，利用此技术可以显著提高对话摘要的性能，而且具有低的实施成本。

Apr, 2022

在大型语言模型中，递归总结实现了长期的对话记忆

使用大型语言模型递归生成摘要 / 记忆，从而提高长期记忆能力，进而解决开放领域对话系统中遗忘重要信息的问题。实验证明，该方法可以在长对话环境中生成更加一致的回应。

Aug, 2023

长对话摘要的探索研究：何有效、何下一步

本文探索了对话摘要的三种策略：扩展变压器模型、检索后摘要流水线模型和分层对话编码模型，并在三个长对话数据集（QMSum、MediaSum、SummScreen）上进行了实验。结果表明，检索后摘要流水线模型具有最佳性能，并说明强大的检索模型和基于外部摘要数据集的预训练可以进一步提高摘要质量。

Sep, 2021

零样本对话摘要评估与小型大型语言模型

大型语言模型在会话摘要方面的能力有待探索，本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能，展示了其对各种提示的表现，并且证明了模型生成的摘要取决于指令，LLMs 在不同指令下的性能差异，如果提示选择不当，有时会导致 ROUGE 分数的显著下降，还通过人工评估对模型进行了评估，并讨论了模型在会话摘要方面的限制。

Nov, 2023

CONFIT：基于语言学对比微调的忠实对话摘要

通过 ConFiT 训练方法及一系列的模块化目标来改善抽象型对话摘要的事实准确性，最终生成的摘要数据质量得到了显著提高。

Dec, 2021