从无标签文件生成信息需求对话

EMNLPMay, 2022

Generating Information-Seeking Conversations from Unlabeled Documents

Gangwoo Kim, Sungdong Kim, Kang Min Yoo, Jaewoo Kang

TL;DR本文介绍了一种机器学习框架 SIMSEEK，可用于合成 2M 条 CQA 对话，并且在 QuAC 基准测试中实现了最先进的性能

Abstract

In this paper, we introduce a novel framework, simseek, (Simulating information-Seeking conversation from unlabeled documents), and compare its two variants. In our baseline simseek-SYM, a questioner generates fo

simseek conversational search cqa wiki-simseek machine learning

发现论文，激发创造

利用自动回复分割从无标记文档中合成对话

通过学习对话任务数据的分割而不是使用句子边界的分割方法，我们提出了一种强大的对话合成方法，通过该方法生成的合成数据集在机器和人员评估中表现出优越的质量，同时在 ConvQA 检索系统预训练中使用我们的填充数据，观察到 OR-QuAC 基准测试数据的显著提升。

Jun, 2024

基于语义的无监督常识问答方法

本文提出了一种新颖的基于语义的问题回答方法 (SEQA)，该方法使用生成模型先产生一组可能的答案，然后基于这些可能的答案和问题在语义上的相似性来选择正确的答案。该方法在无监督的情况下，通过对四个基准数据集的实验验证了其有效性和健壮性，并取得了最佳结果。

May, 2021

通过用户模拟评估混合式倡议对话搜索系统

本文介绍了 USi，一种用于自动评估对话式搜索系统的用户仿真器，可自动回答与搜索主题有关的澄清问题，包括单轮和多轮交互。通过一系列实验证明了 USi 对人类生成的答案是相当的。

Apr, 2022

从对话学习语义文本相似度

本论文通过学习使用对话数据学习句子级语义相似性的新方法，利用无监督模型预测对话输入响应对以训练，导出的句子嵌入在语义文本相似性基准测试和 SemEval 2017 的 CQA 问题相似性子任务上表现良好。通过介绍同时进行对话输入响应预测任务和自然语言推理任务的多任务训练来进一步改善性能。广泛的实验显示，所提出的模型在 STS 基准测试中达到了所有神经模型中最佳性能，并且在两个任务中的工程特征和混合系统方面与最先进的混合系统竞争。

Apr, 2018

ISEEQ: 使用动态元信息检索和知识图谱生成信息检索问题

提出了一种名为 ISEEQ 的新方法，利用知识图谱和深度生成对抗强化学习等技术从短语查询中生成高质量的信息请求问题，从而推进对话式信息查询技术的发展，并在多个数据集上进行了详细的实验和人工评估。

Dec, 2021

面向任务导向对话的信息寻求澄清问题研究

本文提出了一种名为 MAS2S 的多注意 Seq2Seq 网络，用于针对任务导向的信息检索中用户的信息需求和个人信息进行提问，扩展了现有数据集并在其上进行了实验，结果表明 MAS2S 在澄清问题生成和回答预测方面优于基线。

May, 2023

SelQA: 基于选项的问答新基准

本篇论文提出了一个新的选择题型问答数据集 SelQA，该数据集通过众包生成问题，并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案，旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上，我们比较了几个系统，为未来的工作提供了强有力的基准结果。

Jun, 2016

响应增强的半监督对话查询生成

提出了一种半监督学习框架 SemiDQG，通过使用未标注的对话数据来改进模型性能，使用类似度选择策略选取高质量伪查询进一步训练模型，并采用 REINFORCE 算法作为精细化训练信号，实验结果表明该框架在跨领域和资源有限场景中具有显著优势。

Dec, 2023

自问自答：无监督知识引导的语言模型对齐

本文介绍了一种称为 Self-QA 的创新框架，利用大量无监督知识代替传统的人工撰写指导文件种子，从而生成更多正确和特定于领域的指导数据，以克服创建用于指导调整的监督配对问答数据所面临的挑战。

May, 2023

搜索引擎对话：基于 SERP 的对话回应生成

本文讨论了 Conversational Agents（CAs）和 Conversational Search（CS）的研究，提出了一个使用自然语言与搜索引擎对话的系统，并使用 Crowdsourcing 平台的工作人员创建了 Search as a Conversation（SaaC）数据集以及基于该数据集开发的最新的 Conversations with Search Engines（CaSE）管道，该管道引入了一个支持标记识别模块和先验知识指针生成器以生成更准确的响应，并通过实验表明 CaSE 能够胜过强基线模型。

Apr, 2020