从客服聊天记录中提取 N 对 N 问答对

Dec, 2022

从客服聊天记录中提取 N 对 N 问答对

DialogQAE: N-to-N Question Answer Pair Extraction from Customer Service Chatlog

Xin Zheng, Tianyu Liu, Haoran Meng, Xu Wang, Yufan Jiang...

TL;DR本文介绍了一种基于生成 / 判别标记方法的 N 至 N QA 提取任务，可以提高客户服务聊天机器人的知识库，并首次设定了 Utterance 和 Session 级别的评估指标。我们发现 QA 对内部和之间的关系可以用于分析对话结构，提出的模型适应不同的领域和语言，并可以减少真实世界产品对话平台中的劳动力成本。

Abstract

Harvesting question-answer (QA) pairs from customer service chatlog in the wild is an efficient way to enrich the knowledge base for customer service chatbots in the cold start or continuous integration scenarios. Prior work attempts to obtain 1-to-1 QA pairs from growing →

qa extraction customer service chatlog knowledge base enrichment dialogue structure analysis generative/discriminative tagging

发现论文，激发创造

XAIQA：用于提取式问答的基于解释器的数据增强

使用医疗记录自然可用的数据，XAIQA 通过分类模型解释器生成大规模的合成问答对，提升了 GPT-4 作为抽取式问答模型的性能。

Dec, 2023

复杂的连续问答：学习在知识图谱上对话问答对

本文提出了一个任务，即 Complex Sequential QA，它结合了回答简单事实性问题和通过一系列有逻辑的问答匹配进行会话来进行复杂推理，本文也介绍了关于这个任务所需数据集，以及目前现有的模型在处理实际场景中还存在的不足。

Jan, 2018

面向端到端口语问答的数据蒸馏技术

本研究提出了一种新的口头对话问答任务，能够使问答系统对给定的语音话语和文本语料库建模，其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率，同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力，并在实验中取得了优异的性能表现。

Oct, 2020

基于填空翻译的无监督问答

本文探讨了利用无监督方法合成训练集数据以及不匹配的语料库训练 NMT 模型作为 cloze-to-natural question translator 来更有效地训练 QA 模型，这种方法已经在 SQuAD v1 数据集上验证，并且相较于过去的监督学习方法取得更好的表现。

Jun, 2019

端到端口语对话问答：任务，数据集和模型

提出了一种新的口语会话问答任务（SCQA），旨在使系统能够模拟复杂的对话流程，以便处理音频记录中的对话式问题，并探索从不同模态提供更多线索，通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示，并通过双向关注机制鼓励更好的音频和文本之间的对齐，以简化知识转移过程。通过 Spoken-CoQA 数据集，证明了跨模态信息融合的必要性，同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。

Apr, 2022

利用生成 NQ 类问题来改进问答

本研究提出一种算法，利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式，自动生成自然问题（NQ）数据集中的问题，同时使用神经分类器检测并去除不合法的问题，从而生成高质量的数据集，提高了 QA 表现，该算法在低资源环境下使用，扩展了 QA 系统的规模，同时保持了训练数据的质量。

Oct, 2022

无监督问答系统的问题 - 答案提取和精炼

本研究提出了两种方法以改善无监督问答：从维基百科中收集问题 - 答案对以自动构建语料库，利用 QA 模型提取更合适的答案迭代地优化 RefQA 数据。经过对 SQuAD 1.1 和 NewsQA 进行的实验证明我们的方法在无监督情况下优于之前的方法，并与早期的监督模型具有竞争力。我们还在少样本学习方面证明了我们方法的有效性。

May, 2020

医学问答对生成

本文介绍了一种基于自动生成问答对的框架，包含一个无监督关键词检测器发现问题的有效性，一个生成器利用多通道解码器提高结构知识的多样性，用于医学领域的问答任务，能有效提升考试问答系统的准确率。

Nov, 2018

将问答数据集转化为自然语言推断数据集

本研究提出了一种基于句子转换模型的新方法，从庞大数量的大型问答数据集中自动派生自然语言推理（NLI）数据集，并展示了其将多种问答数据集成功应用于自然语言推理数据集的能力，从而新派生出包含 50 万个以上 NLI 示例的免费数据集 (QA-NLI)，展示了它呈现的推理现象的宽泛性。

Sep, 2018

社区问答对总结

该研究提出了一种新的社区问答（CQA）总结任务，旨在从 CQA 对中创建简洁的摘要，并通过一系列数据注释和方法比较建立了一个强大的基线方法 DedupLED，进一步确认了 CQA 总结任务中的两个关键挑战，即句子类型转换和去重移除。

Nov, 2022