从客服聊天记录中提取 N 对 N 问答对
本文提出了一个任务,即 Complex Sequential QA,它结合了回答简单事实性问题和通过一系列有逻辑的问答匹配进行会话来进行复杂推理,本文也介绍了关于这个任务所需数据集,以及目前现有的模型在处理实际场景中还存在的不足。
Jan, 2018
本研究提出了一种新的口头对话问答任务,能够使问答系统对给定的语音话语和文本语料库建模,其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率,同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力,并在实验中取得了优异的性能表现。
Oct, 2020
本文探讨了利用无监督方法合成训练集数据以及不匹配的语料库训练 NMT 模型作为 cloze-to-natural question translator 来更有效地训练 QA 模型,这种方法已经在 SQuAD v1 数据集上验证,并且相较于过去的监督学习方法取得更好的表现。
Jun, 2019
提出了一种新的口语会话问答任务(SCQA),旨在使系统能够模拟复杂的对话流程,以便处理音频记录中的对话式问题,并探索从不同模态提供更多线索,通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示,并通过双向关注机制鼓励更好的音频和文本之间的对齐,以简化知识转移过程。通过 Spoken-CoQA 数据集,证明了跨模态信息融合的必要性,同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。
Apr, 2022
本研究提出一种算法,利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式,自动生成自然问题(NQ)数据集中的问题,同时使用神经分类器检测并去除不合法的问题,从而生成高质量的数据集,提高了 QA 表现,该算法在低资源环境下使用,扩展了 QA 系统的规模,同时保持了训练数据的质量。
Oct, 2022
本研究提出了两种方法以改善无监督问答:从维基百科中收集问题 - 答案对以自动构建语料库,利用 QA 模型提取更合适的答案迭代地优化 RefQA 数据。经过对 SQuAD 1.1 和 NewsQA 进行的实验证明我们的方法在无监督情况下优于之前的方法,并与早期的监督模型具有竞争力。我们还在少样本学习方面证明了我们方法的有效性。
May, 2020
本文介绍了一种基于自动生成问答对的框架,包含一个无监督关键词检测器发现问题的有效性,一个生成器利用多通道解码器提高结构知识的多样性,用于医学领域的问答任务,能有效提升考试问答系统的准确率。
Nov, 2018
本研究提出了一种基于句子转换模型的新方法,从庞大数量的大型问答数据集中自动派生自然语言推理(NLI)数据集,并展示了其将多种问答数据集成功应用于自然语言推理数据集的能力,从而新派生出包含 50 万个以上 NLI 示例的免费数据集 (QA-NLI),展示了它呈现的推理现象的宽泛性。
Sep, 2018
该研究提出了一种新的社区问答(CQA)总结任务,旨在从 CQA 对中创建简洁的摘要,并通过一系列数据注释和方法比较建立了一个强大的基线方法 DedupLED,进一步确认了 CQA 总结任务中的两个关键挑战,即句子类型转换和去重移除。
Nov, 2022