TREC 2020 播客摘要赛道的 CUED 语音

Dec, 2020

CUED_speech at TREC 2020 Podcast Summarisation Track

Potsawee Manakul, Mark Gales

TL;DR该研究介绍了用于 TREC 2020 播客摘要挑战的方法。该方法采用了两个步骤：过滤摘要中的冗余或信息较少的句子，然后应用基于 BART 的文本摘要系统。最好的结果在人类评估中达到了 1.777 的得分。

Abstract

In this paper, we describe our approach for the podcast summarisation challenge in TREC 2020. Given a podcast episode with its transcription, the goal is to generate a summary that captures the most important information in the content. Our approach consists of two steps: (1) Filtering

podcast summarisation hierarchical model bart ensembles human evaluation

发现论文，激发创造

开放领域播客剪辑自动化

研究了抽象化摘要的多个不同方面，如重要片段的选择、训练实例数量和质量的平衡，以及合适的摘要长度和起止点，其中从转录中选择重要部分作为输入是有优势的。同时使用神经网络建立的系统的最佳结果比创作者描述的有一个绝对提高达到了 0.268 (+21%) 的 NIST 评级的质量。

Nov, 2020

TREC 2020 Podcasts 赛道概述

本文介绍了 2020 年 Text Retrieval Conference (TREC) 的 Podcast Track，包括检索和摘要两个任务，提供了各个参与者的实验结果。此 Track 将在 2021 年 TREC 继续进行，略作修改以响应参与者的反馈意见。

Mar, 2021

播客抽象摘要的基准分析

使用 Spotify Podcast 数据集对 Podcast 的 summarization 进行基础分析，以帮助研究者了解现有的预训练模型并构建更好的模型。

Aug, 2020

PodSumm -- 播客音频摘要

本文提出了一种方法来自动生成播客音频摘要，以帮助用户在投入时间聆听整个剧集之前快速预览内容，并使用一个自定义的数据集，并通过音频转文本转换以及文本摘要生成来实现。

Sep, 2020

面向播客文稿的抽象化文本摘要

研究了基于抽象总结的方法，结合特定的语音片段进行全面的抽象总结，以解决口语转录中的表述问题，最终在大型播客数据集上证明了该方法的有效性。

Mar, 2022

播客摘要评估：一种评估摘要评估方法的资源

本文介绍了一种新的数据集，即播客摘要评估语料库，该数据集可用于评估长输入摘要，并提供数据选择功能以筛选参考摘要 - 文档对用作训练。

Aug, 2022

使用 BERT 进行口头和书面指令的抽象摘要

本研究使用 BERTSum 模型对按主题分类的教学视频进行抽象摘要概括，通过多个英文语境下的数据集预训练模型，使用 ROUGE 和 Content-F1 评分进行结果评估，同时进行人工盲评，结果显示本方法在 WikiHow 数据集中具有较高的效果及概括性能力。

Aug, 2020

面向领域的去噪序列到序列模型微调在自然语言摘要中的应用

通过自然语言处理技术，对长文本数据进行自动摘要，采用数据增强和微调等策略进行优化，可以大幅提高摘要的准确性，本文采用最先进的 NLP 模型 BART 进行研究，并提供了一种端到端的优化策略，使得在金融、医疗或其他特定领域的数据上，其 ROUGE-1 指标达到了绝对提升 5-6% 的水平。

Apr, 2022

局部关注和内容选择实现的长篇摘要

本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖，并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验，证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外，与现有算法相比，在没有大规模 GPU 计算机卡的情况下，本研究的方法也可以实现相当或更好的结果。

May, 2021

CUED 在 ProbSum 2023 的分层摘要模型集成

本文提出了将 Clinical-T5 和 Hierarchical Ensemble of Summarization Models 与 Minimum Bayes Risk 解码相结合来改善医疗笔记摘要的性能，实现了在共享任务领先的 ROUGE-L32.77

Jun, 2023