使用大型语言模型的端到端语音摘要

Jul, 2024

使用大型语言模型的端到端语音摘要

An End-to-End Speech Summarization Using Large Language Model

Hengchao Shang, Zongyao Li, Jiaxin Guo, Shaojun Li, Zhiqiang Rao...

TL;DR提出了一种利用 Q-Former 作为音频 - 文本模态连接器、采用大型语言模型从语音特征直接生成文本摘要的端到端 SSum 模型，并采用多阶段训练方法来提高模型处理长篇语音的能力，最终在 How-2 数据集上取得了具有竞争力的性能。

Abstract

abstractive speech summarization (SSum) aims to generate human-like text summaries from spoken content. It encounters difficulties in handling long speech input and capturing the intricate cross-modal mapping between long speech inputs and short text summaries. Research on large langua

abstractive speech summarization q-former end-to-end ssum model multimodal information fusion curriculum learning strategy

发现论文，激发创造

AugSumm：利用大型语言模型生成的合成标签进行通用语音摘要

通过使用大型语言模型（LLM）作为人工标注者的代理，本研究提出了一种名为 AugSumm 的方法来生成用于训练和评估的增广摘要，通过在 ChatGPT 上生成的合成摘要验证其质量，并在训练和评估中利用这些合成摘要，实验证明在合成摘要上进行预训练并在 GT 摘要上进行微调可以改善 ROUGE-L 指标。

Jan, 2024

利用大型文本语料库进行端到端语音摘要

本文介绍了两种新颖的方法，利用大量外部文本摘要数据为 E2E SSum 训练提供支持，分别是使用 TTS 系统生成合成语音进行训练，以及使用输入音素序列而非合成语音直接训练模型。实验证明，这些方法在 How2 数据集上改进了多个指标，并且是第一篇使用外部语言资源进行 E2E SSum 的工作。

Mar, 2023

预训练语言模型迁移学习改进端到端语音摘要

本文提出在端对端语音摘要（E2E SSum）模型中集成预训练语言模型来解决数据稀缺问题，并通过迁移学习来减少编解码器之间的差距。实验证明，该模型表现优于基线和数据增强模型。

Jun, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

TriSum: 从大型语言模型中学习结构化理由的文摘能力

通过 TriSum 框架，我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型，以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习，我们的方法在各个评估基准上提升了本地化模型的性能，并提供了摘要的合理解释。

Mar, 2024

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

LaMSUM: 一种使用 LLMs 的用户生成内容抽取式摘要的新框架

这项研究通过利用投票算法，提出了一种新的框架 LaMSUM，通过大型语言模型生成用户生成的文本的摘要，结果显示 LaMSUM 优于现有的提取式摘要方法，同时试图解释语言模型生成的摘要产生的原因。

Jun, 2024

走向端到端的语音转文本摘要

将语音文字（S2T）摘要分为级联和端到端两种模型，并使用预训练的 T2T 摘要提取器进行迁移学习，进而将其应用于在线上传的广播新闻中。结果表明，端到端模型要略逊于级联模型，但都优于提取式基线模型。

Jun, 2023

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

Summaformers @ LaySumm 20, LongSumm 20

本文探讨了利用 Transformer-based 系统概括多领域科学研究论文的问题，并设计了两种不同类型的概述手段，即 LaySumm 和 LongSumm，使用 ROUGE 指标有效评估了本文系统的优越性。

Jan, 2021