利用LLM代理生成合成对话数据集
本文探讨了预训练语言模型在生成目标导向对话方面的潜力,并通过 ChatGPT 在三类目标导向对话、两种生成模式和两种语言的实验中进行了评估,结果表明生成的对话和注释质量与人类相当。
May, 2023
提出了一种半自动对话生成框架DIALGEN,它使用语言模型(ChatGPT)迭代生成子对话,并使用人类反馈来纠正不一致性或重定向流程,以解决私人信息保护和成本的问题。通过结构化摘要代理人-客户信息收集通话的实验,展示了DIALGEN数据在模型性能提高方面的显著改进。
Jul, 2023
本研究提供了关于对话代理的主要特征、支持任务、相应的开放领域数据集以及用于基准测试这些数据集的方法的详细综述,强调了构建对话代理的关键因素,并提出了用于在不同任务之间建立统一基础模型的UNIT模型,本文作者还审查了用于测量对话代理绩效的评估策略并突出了有关对话AI领域未来研究的范围。
Jul, 2023
通过模块化和高度自动化的LUCID系统,我们产生了一个包含4,277个跨100个意图的多领域、多意图对话的种子数据集,其中包含了各种具有挑战性的现象和多样的用户行为。
Mar, 2024
对多轮对话数据生成进行了系统综述,包括开放领域对话系统、任务导向对话系统和信息搜索对话系统,提出了一个概括对话数据生成系统主要原则的通用框架,并探讨了合成对话数据的评估指标和方法、当前领域的挑战以及未来研究的潜在方向。
May, 2024
利用GPT-4生成对话数据,通过在LLaMA 2上进行两阶段的微调,减少对话收集和注释成本,并表现出比仅使用真实数据训练的基准模型更好的性能,同时适应实际场景中的动态需求。
May, 2024
通过个性化,在对话代理中提高用户参与度已经变得很重要,尤其是随着大规模语言模型的出现,能够生成流畅的回应。本文系统地调查了个性化对话生成的最新研究现状,包括使用的数据集、开发的方法论和应用的评价指标。涵盖了22个数据集,我们重点介绍了基准数据集和富有附加特征的新数据集。我们进一步分析了2021-2023年间顶级会议的17项重要工作,并确定了五种不同类型的问题。我们还透露了大规模语言模型在个性化对话生成方面的最新进展。我们的评估部分提供了这些工作中使用的全面评估维度和指标的综合总结。最后,我们讨论了当前面临的挑战,并展望了个性化对话生成领域未来研究的发展方向。
May, 2024
基于大型语言模型的基于规划的对话代理框架(PCA)能通过离线制定核心和必要的SOP,实现在线规划最佳行动路径以实现对话的可控性和前瞻性。实验证明,经过细调的LLMs在PCA-D上可以显著提高性能并具备广泛的泛化能力,而PCA-M则在对话的可控性、前瞻性、任务成功率和整体逻辑连贯性方面优于其他基准,并适用于工业对话场景。
Jul, 2024
本研究解决了大规模多样化人机对话数据集的收集成本高、劳动密集和耗时的问题。我们提出了一种基于大型语言模型的用户代理,能够在虚拟环境中模拟用户行为,从而提高具身对话数据集生成的可扩展性和效率。研究表明,该用户代理在模拟人类行为方面表现出色,能够有效增强机器人任务完成的能力。
Oct, 2024