DialogSum Challenge:对话摘要共享任务结果
提出了 DialogSum,一种大规模标注的对话摘要数据集,通过对该数据集使用最先进的神经摘要器进行经验分析,结果表明对话摘要中存在诸如口语术语、特殊话语结构、代词和省略、语用学和社会常识等独特挑战,需要特定的表示学习技术来更好地处理。
May, 2021
本研究针对对话摘要技术所面临的特殊需求,探索处理多个发言者对话识别、否定理解、情景推理和非正式语言理解四大挑战,并使用预先训练的序列到序列语言模型进行实验,通过发言者名称代替、否定范围突出、多任务学习与域内预训练等方法提高摘要表现,超越强基准结果。
Sep, 2021
CL-SciSumm Shared Task 2018 was held as part of SIGIR's Annual Conference, which focused on scientific document summarization in the computational linguistics domain, evaluated using two metrics and providing datasets for the community.
Sep, 2019
对话摘要化是将原始对话压缩成涵盖重要信息的短版,用于减轻对话数据负载,本研究从多个领域(包括会议,聊天,电子邮件,客户服务和医疗对话)全面系统地调查了对话摘要化的现状和研究进展,包括可用于研究数据集的总览和两个排行榜,并提出了一些未来的研究方向,如忠实度、多模态、多领域和多语言对话摘要化。
Jul, 2021
该论文介绍了 2019 年 CL-SciSumm 共享任务,包括三个任务:确定引用文献与被引用文献间的关系,分类表述要素和生成概括性摘要等,使用 40 个带有注释的 CL-SciSumm 2018 语料库和 1000 个来自 SciSummNet 数据集的引用和参考文献,以及使用了两种评估指标,其中 ROUGE 作为一种评估指标。
Jul, 2019
本研究介绍了 SAMSum 语料库,这是一个新的抽象对话摘要数据集,研究人员使用多个模型进行测试,并将其结果与新闻文章语料库的结果进行比较,结果显示与人类评估者的判断相反,模型生成的对话摘要具有更高的 ROUGE 分数,这表明需要使用专用模型和非标准质量度量的抽象对话摘要这一具有挑战性的任务,据我们所知,这是引入高质量聊天对话语料库的第一次尝试,并手动注释了抽象摘要,可供研究人员进行进一步研究。
Nov, 2019
展示一种将 fine-tuned 的生成模型与人工的交互式摘要整理系统相结合的生产系统,以解决销售电话摘要的实际应用情景中存在的困难问题,包括长对话、内容验证、缺乏标记数据和质量评估,并说明了 GPT-3 可以用作离线数据标记器以解决数据贫乏和隐私限制等问题。在公共数据集上进行的实验表明,我们的模型在解决摘要和内容验证任务方面有了显著的改善。
Apr, 2022
本文提出 “ConvSumX Challenge”,为研究人员提供了研究整合对话摘要和机器翻译的解决方案的新途径,旨在打破非英语演讲者受益于最新对话摘要进展的壁垒。通过构建新的基准,涵盖 2 种实际情况和 3 种语言方向,包括低资源语言,以期激励研究超越英语。
May, 2022