一个基于 BERT 和音频的口语多选题答案框架

May, 2020

一个基于 BERT 和音频的口语多选题答案框架

An Audio-enriched BERT-based Framework for Spoken Multiple-choice Question Answering

Chia-Chih Kuo, Shang-Bao Luo, Kuan-Yu Chen

TL;DR本研究通过设计一种基于 BERT 的 SMCQA 框架集成音频和文本信息，有效地提高了语音问答系统的准确性。

Abstract

In a spoken multiple-choice question answering (smcqa) task, given a passage, a question, and multiple choices all in the form of speech, the machine needs to pick the correct choice to answer the question. While

spoken multiple-choice question answering smcqa pre-trained language representation models acoustic-level statistics audio-enriched bert-based smcqa framework

发现论文，激发创造

SpeechBERT：一个用于端到端口语问答的音频和文本联合学习语言模型

该研究提出了一种基于音频和文本联合训练的 SpeechBERT 模型，通过端对端地提取语音信息，解决了端到端口语问答任务中音频转换文本出现的问题，并且在包括 ASR 错误的数据集中表现出优异的性能。该模型可以为许多口语理解任务提供潜在的借鉴，其效果优于传统的级联 ASR 和 TQA 模型的方法。

Oct, 2019

基于上下文关注机制的口语会话问答知识转移

该研究提出了一种名为 CADNet 的方法，该方法使用上下文化注意力分层蒸馏技术，从而在 SCQA 任务中更好地抵御 ASR 噪声，最终在 Spoken-CoQA 数据集上实现了显著性能提升。

Oct, 2020

端到端口语对话问答：任务，数据集和模型

提出了一种新的口语会话问答任务（SCQA），旨在使系统能够模拟复杂的对话流程，以便处理音频记录中的对话式问题，并探索从不同模态提供更多线索，通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示，并通过双向关注机制鼓励更好的音频和文本之间的对齐，以简化知识转移过程。通过 Spoken-CoQA 数据集，证明了跨模态信息融合的必要性，同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。

Apr, 2022

自监督对比跨模态表示学习用于口语问答

本文提出了基于自监督和对比表示学习的新型语音问答培训方案，采用多元增广策略以及时间对齐注意来更有效地指导生成模型，实现最佳答案预测解决方案，在三个 SQA 基准测试上取得了最新成果。

Sep, 2021

口语问答自学习的自监督对话学习

本研究通过自监督学习方式，包括不连贯性识别，插入检测以及问题预测，明确捕捉口语对话文档之间的指代消解和对话连贯性，提高了口语对话的意义和连贯性。在 Spoken-CoQA 数据集上取得了最先进的结果。

Jun, 2021

面向端到端口语问答的数据蒸馏技术

本研究提出了一种新的口头对话问答任务，能够使问答系统对给定的语音话语和文本语料库建模，其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率，同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力，并在实验中取得了优异的性能表现。

Oct, 2020

多项选择题生成：面向自动化评估框架的发展

本文提出一种多选题智能生成系统，利用预训练的语言模型，根据规定的性能指标，通过读取理解语料库来生成语法准确，具有可回答性、多样性和复杂性的问题及选项。

Sep, 2022

MuCoT: 低资源语言中的多语言对比训练问答

本文提出一种用于低资源语言的提高问答技术的方法，即通过翻译和转写将问题回答样本扩充到目标语言，利用增广数据微调已经在英语中预训练的 mBERT 问答模型，并引入对翻译问题上下文特征对之间的对比损失来提高不同语言家族的翻译准确性。

Apr, 2022

DUAL：用于无文本口语问答的离散口语单位自适应学习

该文提出了采用离散口语单元自适应学习（DUAL）方法，旨在解决当问答任务涉及到名称实体或生僻单词时，仍然能够从口语文本中获取正确答案的问题，同时发布了适用于更真实场景的新的 SQA 基准语料库 NMSQA。

Mar, 2022

SDNet: 基于上下文语境的注意力深度网络，用于问答对话

本文提出了一种名为 SDNet 的上下文注意力深度神经网络模型，通过整合上下文理解对话场景并从文本中提取信息，同时引入最新的 BERT 模型，提高了对话问答的精度，表现优于之前的最佳模型并创造了最好的 CoQA 排行榜结果。

Dec, 2018