百川 2-Sum: 对话摘要的 Baichuan2-7B 模型的指令微调
Baichuan 2 是一系列大规模多语言语言模型,包含 70 亿和 130 亿参数,从头开始训练,共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能,如 MMLU、CMMLU、GSM8K 和 HumanEval,此外,Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点,以便研究界更好地理解 Baichuan 2 的训练动态。
Sep, 2023
这篇研究论文使用了各种不同的大型语言模型,包括 MPT-7b-instruct,falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型,通过不同的超参数对生成的摘要进行评估,并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集,旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解,同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。
Oct, 2023
研究利用自然语言推理(NLI)模型来提高对话摘要的覆盖率和忠实度,通过计算细粒度训练信号,产生内容在参考摘要中未被涵盖,并且区分生成的句子是与事实一致或不一致的,通过 DialogSum 和 SAMSum 数据集的实验证实该方法的有效性,并通过自动度量和人类评估进行验证,另外,评估三个不同维度的对话摘要,计算常用自动度量与人类判断之间的相关性,以提供有关最适合评估对话摘要的度量标准的见解。
Jan, 2023
本文提出了一种用于长对话理解和摘要的预训练框架,其中包括以窗口为基础的去噪方法和稀疏注意力机制,并通过实验表明 DialogLM 预训练模型显著优于现有的模型。
Sep, 2021
通过自然语言处理技术,对长文本数据进行自动摘要,采用数据增强和微调等策略进行优化,可以大幅提高摘要的准确性,本文采用最先进的 NLP 模型 BART 进行研究,并提供了一种端到端的优化策略,使得在金融、医疗或其他特定领域的数据上,其 ROUGE-1 指标达到了绝对提升 5-6% 的水平。
Apr, 2022
使用大型语言模型递归生成摘要 / 记忆,从而提高长期记忆能力,进而解决开放领域对话系统中遗忘重要信息的问题。实验证明,该方法可以在长对话环境中生成更加一致的回应。
Aug, 2023
本文探索了对话摘要的三种策略:扩展变压器模型、检索后摘要流水线模型和分层对话编码模型,并在三个长对话数据集(QMSum、MediaSum、SummScreen)上进行了实验。结果表明,检索后摘要流水线模型具有最佳性能,并说明强大的检索模型和基于外部摘要数据集的预训练可以进一步提高摘要质量。
Sep, 2021
大型语言模型在会话摘要方面的能力有待探索,本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能,展示了其对各种提示的表现,并且证明了模型生成的摘要取决于指令,LLMs 在不同指令下的性能差异,如果提示选择不当,有时会导致 ROUGE 分数的显著下降,还通过人工评估对模型进行了评估,并讨论了模型在会话摘要方面的限制。
Nov, 2023