ConvSDG：面向对话式搜索的会话数据生成

WWWMar, 2024

ConvSDG：面向对话式搜索的会话数据生成

ConvSDG: Session Data Generation for Conversational Search

Fengran Mo, Bole Yi, Kelong Mao, Chen Qu, Kaiyu Huang...

TL;DR基于大型语言模型的 ConvSDG 框架通过生成对话数据来提高对话式搜索的性能，并在四个广泛使用的数据集上展现了其有效性和广泛适用性。

Abstract

conversational search provides a more convenient interface for users to search by allowing multi-turn interaction with the search engine. However, the effectiveness of the conversational dense retrieval methods i

conversational search conversational dense retrieval training data large language models convsdg framework

发现论文，激发创造

通过 LLM-Cognition 数据增强来概括对话式密集检索

通过 LLM - 认知数据增强（ConvAug）的方式，本文提出了一个泛化会话密集检索的框架，生成多级增强会话以捕捉会话上下文的多样性，利用认知感知过程减少误报、漏报和幻觉，通过难度自适应的样本筛选改进模型的学习空间，采用对比学习目标训练更好的会话上下文编码器。通过在四个公共数据集上进行广泛实验，包括正常设置和零样本设置，证明了 ConvAug 的有效性、泛化性和适用性。

Feb, 2024

响应增强的半监督对话查询生成

提出了一种半监督学习框架 SemiDQG，通过使用未标注的对话数据来改进模型性能，使用类似度选择策略选取高质量伪查询进一步训练模型，并采用 REINFORCE 算法作为精细化训练信号，实验结果表明该框架在跨领域和资源有限场景中具有显著优势。

Dec, 2023

近期对话数据生成的研究进展综述

对多轮对话数据生成进行了系统综述，包括开放领域对话系统、任务导向对话系统和信息搜索对话系统，提出了一个概括对话数据生成系统主要原则的通用框架，并探讨了合成对话数据的评估指标和方法、当前领域的挑战以及未来研究的潜在方向。

May, 2024

基于循环神经网络与卷积句子重排的对话随机语言生成

本文提出基于联合循环卷积神经网络结构的统计语言生成器，可以在不需要语义对齐或预定义语法树的情况下，训练对话行为 - 话语对。客观指标表明，在相同的实验条件下，这种新模型优于以前的方法。人类评委的评估结果表明，它产生的不仅是高质量而且是语言上多变的话语，而且与 n-gram 和基于规则的系统相比受到更多的青睐。

Aug, 2015

基于语境的对话生成

本研究探讨了如何利用预训练语言模型生成会话摘要，并通过将生成的会话与真实数据集相结合来提高自动生成的会话总结的准确性。

Jun, 2021

q2d：从问题到对话，训练模型学习搜索

该论文介绍了一种自动生成基于搜索查询的对话数据的机器学习方法，通过使用大型语言模型生成问题回答数据集，学习如何与外部搜索 API 通信，以生成具有上下文的搜索查询，从而改善对话系统的回答效果。

Apr, 2023

历史感知的对话密集检索

通过上下文消噪的查询重构和根据历史转折的实际影响自动挖掘监督信号，提出了一种历史感知对话稠密检索系统，实验证明了 HAConvDR 在长对话中具有改进的历史建模能力。

Jan, 2024

AutoConv: 使用大型语言模型自动生成信息检索对话

利用大型语言模型（LLM）的少样本学习能力和生成能力，我们提出了 AutoConv 用于合成对话生成，将对话生成问题形式化为语言建模任务，然后使用少量人类对话经过微调训练 LLM 以捕捉信息获取过程的特征，并使用它生成高质量的合成对话，验证实验表明 AutoConv 大大改进了目前基线模型的性能，并减少了对人类注释的依赖，此外，我们还提供了多项分析研究以促进未来的研究。

Aug, 2023

CONVERSER：基于合成数据生成的小样本对话稠密检索

使用 CONVERSER 框架，在最多 6 个领域对话示例的情况下，利用大规模语言模型的上下文学习能力为基于对话的密集重排进行训练，实验结果表明所提出的框架在少样本对话密集重排中取得了可比较的性能。

Sep, 2023

通过无监督联合建模的查询增强知识密集型对话

本文提出了一个名为 QKConv 的无监督查询改进方法，它在对话型问题回答，任务导向型对话和知识驱动型对话方面相对于无监督方法实现了最先进的性能，与监督方法相比具有竞争性的性能。

Dec, 2022