StreamHover: 直播文本摘要和标注

Sep, 2021

StreamHover: Livestream Transcript Summarization and Annotation

Sangwoo Cho, Franck Dernoncourt, Tim Ganter, Trung Bui, Nedim Lipka...

TL;DR本论文提出StreamHover框架来注释和概括直播转录文本。我们探讨了一种基于神经网络的摘要提取模型，利用向量量化变分自编码器学习口语表达的潜在向量表示，并从转录文本中识别出显著的语句形成摘要。本研究的结果为提高直播摘要方案的效率浏览提供了一种途径。

Abstract

With the explosive growth of livestream broadcasting, there is an urgent need for new summarization technology that enables us to create a preview of streamed content and tap into this wealth of knowledge. Howeve

发现论文，激发创造

使用BERT进行口头和书面指令的抽象摘要

本研究使用BERTSum模型对按主题分类的教学视频进行抽象摘要概括，通过多个英文语境下的数据集预训练模型，使用ROUGE和Content-F1评分进行结果评估，同时进行人工盲评，结果显示本方法在WikiHow数据集中具有较高的效果及概括性能力。

Aug, 2020

开放领域播客剪辑自动化

研究了抽象化摘要的多个不同方面，如重要片段的选择、训练实例数量和质量的平衡，以及合适的摘要长度和起止点，其中从转录中选择重要部分作为输入是有优势的。同时使用神经网络建立的系统的最佳结果比创作者描述的有一个绝对提高达到了0.268 (+21%)的NIST评级的质量。

Nov, 2020

MediaSum：面向对话摘要的大规模媒体采访数据集

介绍了一个名叫 MediaSum 的大规模媒体采访数据集，包含 463.6K 份采访文本和摘要，被用于探究电视和广播采访文本的独特位置偏差以及转移学习在改进对话摘要模型上的应用。

Mar, 2021

VT-SSum：一个视频转录分割及概要提取的基准数据集

本文提出了一个基于视频讲座的英语口语文本摘要的基准数据集VT-SSum，该数据集包含9,616个视频的125K个口语文本-摘要对，使用该数据集进行的实验结果表明，与AMI标准相比，使用VT-SSum进行训练的深度学习模型能够显著提高对口语文本的摘要质量。

Jun, 2021

领域无关多源预训练的低资源对话摘要

本文提出了一种多源预训练范式以更好地利用外部摘要数据，通过有限的训练数据实现对话摘要的有竞争力的性能和不同对话场景中的泛化能力。

Sep, 2021

TLDR9+：一项大规模资源，用于极端压缩社交媒体帖子

本文介绍了TLDR9 +——一个从Reddit讨论论坛中提取的包含900万多个训练实例的大规模摘要数据集，旨在进行极端摘要，并通过人工注释蒸馏出更细粒度的TLDRHQ数据集，进一步点出我们所提出的数据集上不同的最先进的摘要模型。

Oct, 2021

面向播客文稿的抽象化文本摘要

研究了基于抽象总结的方法，结合特定的语音片段进行全面的抽象总结，以解决口语转录中的表述问题，最终在大型播客数据集上证明了该方法的有效性。

Mar, 2022

走向端到端的语音转文本摘要

将语音文字（S2T）摘要分为级联和端到端两种模型，并使用预训练的T2T摘要提取器进行迁移学习，进而将其应用于在线上传的广播新闻中。结果表明，端到端模型要略逊于级联模型，但都优于提取式基线模型。

Jun, 2023

大规模语言模型在视频摘要预训练中的扩展

利用大型语言模型生成大规模的视频摘要数据集，提出了一种新的视频摘要模型，并呈现了一个由专业人员注释的高质量摘要的基准数据集，实验证明该方法在多个基准测试中达到了最新的最佳效果。

Apr, 2024

语音与文本记录：对人类标注者在语音摘要中的重要性

本研究解决了人类标注者在进行语音摘要时，听录音与阅读文本记录之间的差异问题。研究发现，基于语音的摘要在事实一致性和信息选择性上优于基于文本的摘要，而后者则容易受到识别错误的影响。这一发现为促进更高质量的语音摘要提供了重要的见解，同时揭示了专家撰写的摘要在信息性和可靠性方面的优势。

Aug, 2024