SpeechBERT：一个用于端到端口语问答的音频和文本联合学习语言模型

Oct, 2019

SpeechBERT：一个用于端到端口语问答的音频和文本联合学习语言模型

SpeechBERT: An Audio-and-text Jointly Learned Language Model for End-to-end Spoken Question Answering

Yung-Sung Chuang, Chi-Liang Liu, Hung-Yi Lee, Lin-shan Lee

TL;DR该研究提出了一种基于音频和文本联合训练的 SpeechBERT 模型，通过端对端地提取语音信息，解决了端到端口语问答任务中音频转换文本出现的问题，并且在包括 ASR 错误的数据集中表现出优异的性能。该模型可以为许多口语理解任务提供潜在的借鉴，其效果优于传统的级联 ASR 和 TQA 模型的方法。

Abstract

While various end-to-end models for spoken language understanding tasks have been explored recently, this paper is probably the first known attempt to challenge the very difficult task of →

end-to-end spoken language understanding question answering speechbert asr errors

发现论文，激发创造

一个基于 BERT 和音频的口语多选题答案框架

本研究通过设计一种基于 BERT 的 SMCQA 框架集成音频和文本信息，有效地提高了语音问答系统的准确性。

May, 2020

WaBERT：用于口语理解和语音到 BERT 对齐的低资源端到端模型

本文提出了一种新颖的 Wave BERT（WaBERT）端到端模型，将语音模型和语言模型相结合，以用于口语理解任务，提高了语音特定信息和语言知识在短时间和低资源训练过程中的整合，从而在 SLUE SA 任务的开发数据集上将召回得分提高了 1.15％，F1 得分提高了 0.82％，此外还修改了序列连续整合和放电（CIF）机制，以实现语音和文本模态之间的单调对齐。

Apr, 2022

端到端口语对话问答：任务，数据集和模型

提出了一种新的口语会话问答任务（SCQA），旨在使系统能够模拟复杂的对话流程，以便处理音频记录中的对话式问题，并探索从不同模态提供更多线索，通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示，并通过双向关注机制鼓励更好的音频和文本之间的对齐，以简化知识转移过程。通过 Spoken-CoQA 数据集，证明了跨模态信息融合的必要性，同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。

Apr, 2022

医学领域零射击端到端口语问答

通过在医学领域中探索端到端方法，我们引入了一种新颖的零 - shot 问答方法，与传统的级联系统相比，我们的方法在 8 个医学任务和 48 小时合成音频的全面评估中，相对于一个带有 1.3B 参数 LLM 和 1.55B 参数 ASR 模型的组合模型，节约资源高达 14.7 倍，同时提高了 0.5% 的平均准确性，凸显了端到端方法在资源受限环境中进行口述问答的潜力。

Jun, 2024

ST-BERT：跨模态语言模型预训练用于端到端口语理解

本文介绍了一种跨模态预训练语言模型 ——Speech-Text BERT（ST-BERT），通过两种预训练任务（Cross-modal Masked Language Modeling and Cross-modal Conditioned Language Modeling）学习上下文跨模态对齐，对端到端的口语语言理解任务进行了解决，实验结果证明，该方法有效。同时，我们的方法通过使用特定于域的语音文本对数据进行域自适应预训练来提高 SLU 性能的表现。

Oct, 2020

面向端到端口语问答的数据蒸馏技术

本研究提出了一种新的口头对话问答任务，能够使问答系统对给定的语音话语和文本语料库建模，其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率，同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力，并在实验中取得了优异的性能表现。

Oct, 2020

DUAL：用于无文本口语问答的离散口语单位自适应学习

该文提出了采用离散口语单元自适应学习（DUAL）方法，旨在解决当问答任务涉及到名称实体或生僻单词时，仍然能够从口语文本中获取正确答案的问题，同时发布了适用于更真实场景的新的 SQA 基准语料库 NMSQA。

Mar, 2022

针对基于检索的聊天机器人中的多轮响应选择的说话人感知 BERT

本文研究了如何使用预训练语言模型解决检索式聊天机器人中的多轮响应选择问题，提出了一种名为 SA-BERT 的新模型，包括说话人感知和解缠策略，并通过领域自适应使性能达到最新的水平。

Apr, 2020

GSQA：生成式口语问答的端到端模型

近期关于口语问答方面的研究表明，最新的端到端模型在提问回答方面取得了显著的进展，尤其是在提取性问题的选择上。然而，先前的研究主要集中在提取性问题上，这种基于提取的方法在直接提取答案的情况下是有效的，但在涉及抽象问题且答案不可直接提取的情况下则存在不足。为了弥补这一差距，我们首次引入了第一个端到端生成式口语问答模型（GSQA），以增强系统的抽象推理能力。我们的 GSQA 模型训练的挑战在于缺乏口语抽象问答数据集。我们建议使用文本模型进行初始化，并利用基于提取的问答数据集将文本生成模型的知识转移到口语生成模型上。实验结果表明，我们的模型在基于提取的问答数据集上的性能超过了先前的提取性模型 3％。此外，GSQA 模型仅在口语提取性问答数据集上进行了微调。尽管没有见过任何口语抽象问答数据，它仍然能够与级联模型的性能高度匹配。总而言之，我们的 GSQA 模型展示了到广泛问题范围的泛化潜力，从而进一步扩展了抽象问答的口语问答能力。

Dec, 2023

朝向端到端口语理解

本文研究了口语理解系统的端到端学习方法，能够直接从音频特征中推断语义意义，而不需要中间文本表示。研究表明，该模型能够获得合理好的结果，并能直接从音频特征中捕捉语义注意力。

Feb, 2018