研究了抽象化摘要的多个不同方面,如重要片段的选择、训练实例数量和质量的平衡,以及合适的摘要长度和起止点,其中从转录中选择重要部分作为输入是有优势的。同时使用神经网络建立的系统的最佳结果比创作者描述的有一个绝对提高达到了 0.268 (+21%) 的 NIST 评级的质量。
Nov, 2020
研究了基于抽象总结的方法,结合特定的语音片段进行全面的抽象总结,以解决口语转录中的表述问题,最终在大型播客数据集上证明了该方法的有效性。
Mar, 2022
本文提出了一种方法来自动生成播客音频摘要,以帮助用户在投入时间聆听整个剧集之前快速预览内容,并使用一个自定义的数据集,并通过音频转文本转换以及文本摘要生成来实现。
Sep, 2020
本文介绍了一种新的数据集,即播客摘要评估语料库,该数据集可用于评估长输入摘要,并提供数据选择功能以筛选参考摘要 - 文档对用作训练。
Aug, 2022
该研究介绍了用于 TREC 2020 播客摘要挑战的方法。该方法采用了两个步骤:过滤摘要中的冗余或信息较少的句子,然后应用基于 BART 的文本摘要系统。最好的结果在人类评估中达到了 1.777 的得分。
Dec, 2020
本文评估了不同预训练模型在不同数据集上的文本摘要效果,通过 ROUGE 和 BLEU 指标比较了三种不同预训练模型在 CNN-dailymail、SAMSum 和 BillSum 三个数据集上的性能表现。
Feb, 2023
本文介绍了 2020 年 Text Retrieval Conference (TREC) 的 Podcast Track,包括检索和摘要两个任务,提供了各个参与者的实验结果。此 Track 将在 2021 年 TREC 继续进行,略作修改以响应参与者的反馈意见。
Mar, 2021
本文研究了使用主题模型技术和命名实体来发现具有相关主题的播客。实验表明,使用我们提出的文档表示方法 NEiCE,可以提高主题的一致性,我们发布了实验代码以复现结果。
Jan, 2022
本文对多方会议情境下的自动摘要这一任务涉及到的难点、数据集以及系统进行了综述,并介绍了未来的研究方向。
本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖,并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验,证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外,与现有算法相比,在没有大规模 GPU 计算机卡的情况下,本研究的方法也可以实现相当或更好的结果。
May, 2021