比较呼叫中心对话的摘要提取方法
本研究论文针对新闻文本自动摘要的抽取和生成方法进行了广泛的比较评估,重点分析了 ROUGE 分数。研究使用 CNN-Daily Mail 数据集,包括新闻文章和人工生成的参考摘要。通过 ROUGE 分数评估生成摘要的效果和质量,再将表现最佳的模型整合到 Web 应用程序中,评估其在真实世界中的能力和用户体验。
Oct, 2023
使用未标记数据进行客户 - 代理商对话的摘要生成,通过将摘要问题建模为问答问题,使用大型语言模型生成伪标签,并通过精细调整专门的聊天总结模型来有效地从大型语言模型中转移知识。
Nov, 2023
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
通过使用多维度质量度量标准(MQM),我们手动量化了 10 种代表性汇总模型中 8 种主要错误来源,发现在相似设置下,提取式汇总器总体上比其抽象式汇总器表现更好,尤其是在忠实度和事实一致性方面。同时,预训练技术,特别是序列到序列的预训练技术,对于提高文本汇总效果非常有效,其中 BART 效果最好。
Oct, 2020
本文是一篇关于使用自然语言处理技术生成简化版摘要的研究综述,发现基于 transformer 的方法如 BERT 和 PEGASUS 在生成 lay text summarisation 方面相对优秀,并建议采用抽取式和生成式相结合的混合方法,并开发一些新的评估指标以确保 lay summary 更易读。
Mar, 2023
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
本文提出了 BERTSUM,即 BERT 的摘要变体,通过在 CNN / Dailymail 数据集上的评估证明其在提取性摘要方面超越了现有的最佳系统。
Mar, 2019
我们介绍了一种利用文本的隐藏聚类结构进行摘要提取的新方法。在 CNN/DailyMail 数据集上的实验结果表明,我们的方法生成的摘要比提取式和抽象式方法更准确,并在 ROUGE-2 指标方面取得了超过先前方法 10% 的最新成果。此外,我们还展示了文本的隐藏结构可以解释为不同的主题。
Jun, 2024
本文讨论对话摘要的 DialogSum Challenge 中四个团队使用自动和人工评估度量探索改进对话摘要性能的结果,并发现人工评估和自动评估之间存在巨大差距,需要更细致的评估方法。
Aug, 2022