团队协作对话的细粒度分析
本文研究对话响应生成系统的评估指标,其中没有可用的监督标签。最近,对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术Twitter领域中的人类判断之间的关系非常弱,而在技术Ubuntu领域中根本没有。我们提供了定量和定性结果,突出了现有指标的特定弱点,并提供了未来开发更好的自动评估指标的建议。
Mar, 2016
本文提出一种基于转移学习的对GitHub评论的对话行为分类方法,该方法能更好地理解虚拟团队在社交编码平台上的协作过程,采用多种编码模型进行比较,并探讨其在GitHub任务评论分类上的应用。
Nov, 2020
本文提出了一个基于行动的对话数据集(ABCD),以探究更现实的客户服务对话系统。 在ABC数据集上,我们建立了大规模的预训练语言模型,并提出了技术基线来评估模型的性能,结果表明较复杂的模型性能更好,在ABCD上取得了较高的准确性,但与人类表现仍有显著差距。
Apr, 2021
本文提出了DialoFlow模型,引入了动态流机制来模拟上下文的流动,并设计3个训练目标来捕捉大规模预训练中每个话语带来的语义影响,实验表明,DialoFlow在对话生成任务中优于DialoGPT。我们还提出Flow评分,这是一种有效的自动度量,用于评估基于预训练DialoFlow的交互式人机对话质量,与11个聊天机器人中的人类评分呈高聊天机器人级别的相关性( $r=0.9$)。
Jun, 2021
这篇论文研究了使用大型语言模型ChatGPT-3.5在真实人机对话中执行对话行为检测的能力,并与专门的模型进行对比。研究发现,专门的模型和ChatGPT都没有达到令人满意的结果,低于人类表现,但ChatGPT显示出了潜在的潜力,并经常超过专门的检测模型。最后,论文深入探讨了ChatGPT的主要缺点,并提出了增强LLM能力的未来研究的指导。
Sep, 2023
在自然语言处理领域,开放领域聊天机器人已成为一个重要的研究课题。然而,现有的开放领域聊天机器人研究的主要限制是其对短期单次对话的单一关注,忽视了在进行中的对话之前的多个连续会话中理解上下文信息的潜在需求。在多会话对话设置中,组成上下文的元素中,会话之间的时间间隔和发言者之间的关系尤为重要。尽管它们的重要性,当前的研究工作尚未充分解决这些对话组成部分。本文引入了一个新的100万多会话对话数据集,称为Conversation Chronicles,用于实现一个长期对话设置,其中包含时间间隔和细粒度的发言者关系。我们利用一个大型语言模型生成数据,广泛的人工评估表明,Conversation Chronicles中的对话片段反映了这些特性,同时在所有会话中保持一致和连贯的互动。我们还提出了一个对话模型,称为ReBot,它由仅约630M个参数的按时间顺序总结和对话生成模块组成。当ReBot在Conversation Chronicles上进行训练时,表现出具有高人类参与度的长期上下文理解能力。
Oct, 2023
本文提出了一种利用大型语言模型从数据集中提取对话策略的方法,通过将对话转换为规范形式的中间表示,并结合图形遍历算法提取对话流程,以提供对话设计人员更多的控制,从而改善对话策略开发过程的效率工具。
Jun, 2024
本研究针对对话系统中存在的语义不一致性问题,提出了一种使用大型语言模型进行对话基础的创新方法。通过创建名为BridgeKG的新对话语料库,我们开展了一系列实验,发现大型语言模型在信息地面化任务中展现出良好的分类能力,并识别知识图谱中的信息项,从而为有效的对话系统提供了重要的见解。
Aug, 2024
本研究解决了对话系统中表达信息的语义不一致问题,通过构建一个新的对话语料库BridgeKG,探索大型语言模型在对话基础上的应用。研究发现这些模型能够有效分类基础行为和识别知识图谱中的信息项,提供了关于模型如何利用上下文学习进行对话基础任务的深刻见解。
Aug, 2024
本研究解决了对话分析(CA)领域缺乏明确范围的问题,系统梳理了现有技术,以支持业务应用决策。通过定义CA任务并提出四个关键步骤,文章探讨了从对话重建到深度归因分析的流程,强调利用大型语言模型推动高层次因果和战略任务的研究。研究结果对业务运营中对话日志的应用潜力具有重要影响。
Sep, 2024