SocialDial: 一个用于社交感知对话系统的基准测试
社会规范对人际交往产生根本性的影响。本研究介绍了 NormDial,一个高质量的双向对话数据集,其中具有中美文化中社会规范的每个交互回合的注释。通过引入社会规范遵守检测任务,我们使用人机协同流程使用少量由专家注释的社会规范提示大型语言模型在中英文中合成生成了数据集。我们通过人工评估表明我们生成的对话质量很高,并进一步评估现有大型语言模型在此任务上的性能。研究结果指向了跨语言和文化对话背景中了解社会规范微妙之处的新方向。
Oct, 2023
本文提出了一种社会偏见检测的新框架 Dial-bias,通过该框架构建了中文社会偏见对话数据集,并建立了不同粒度和输入类型的对话偏见检测基准,旨在帮助实践中构建更安全的对话系统。
Feb, 2022
基于大型语言模型(LLMs)的当前对话式人工智能系统已知生成不安全的回应,同意冒犯性的用户输入或包含有害内容。以前的研究旨在缓解毒性,通过使用手动注释的安全对话历史来微调 LLM。然而,对额外微调的依赖需要大量成本。为了消除这种依赖,我们提出了 GrounDial,通过将回应基于常识社会规则进行扎实地理论基础,而不需要微调,从而实现回应的安全性。GrounDial 采用了基于现场学习和人性化导向解码的混合方法,使得回应在没有额外数据或调整的情况下在定量和定性上都更安全。
Feb, 2024
提出了一种半自动对话生成框架 DIALGEN,它使用语言模型 (ChatGPT) 迭代生成子对话,并使用人类反馈来纠正不一致性或重定向流程,以解决私人信息保护和成本的问题。通过结构化摘要代理人 - 客户信息收集通话的实验,展示了 DIALGEN 数据在模型性能提高方面的显著改进。
Jul, 2023
本文提出了 SODA 数据集,该数据集包含 100 万个高质量的社交对话,利用该数据集训练了 COSMO,一个可推广的谈话代理,在域内和域外数据集上表现优异,同时进行了广泛的评估,并与以前最优秀的谈话模型进行了比较,结果表明 COSMO 在未知数据集上表现更加自然和一致。
Dec, 2022
我们提出了一个新的基准系统 ComperDial,用于为开放领域对话系统的训练和评估提供测评度量标准。ComperDial 包括来自 99 个对话代理的 1,485 个对话中的 10,395 个对话转折的人工评分响应,除了单个对话转折的评分外,也包含对整个对话进行人工注释的评分,我们利用 ComperDial 开发了一种新的自动评估度量标准 CPDScore,实验证明 CPDScore 与人类判断更相关。我们将 ComperDial 和 CPDScore 发布给社区,以加速开放领域对话系统自动评估度量标准的开发。
Jun, 2024
本文介绍了一种用于收集大型语言模型生成对话的框架,用来收集 MathDial 数据集,这个数据集由约 1.5k 个多步骤数学词问题的辅导对话组成,并展示了该数据集具有丰富的教学特性,可以用于调整语言模型以成为更有效的辅导员,并强调了需要解决研究共同体的挑战。
May, 2023
提出了 CGoDial 多领域目标导向对话评估新挑战性和综合性中文基准,包括三个使用不同知识来源的数据集(基于插槽的对话、基于流的对话和基于检索的对话),实验设置中考虑了训练集和测试集的不同组合,其中包括使用真实会话数据或通过众包添加口语特征来填补学术基准和口语场景之间的差距。
Nov, 2022
ProsocialDialog 是第一个大规模的多轮对话数据集,用于教授对话代理在遵循社会准则的情况下回应不安全的用户话语。该数据集包括 58K 个对话,331K 条话语和 160K 个唯一的 RoTs,并配有 497K 个对话的安全标签。通过人工智能协作框架创建,该数据集提出了一种对话安全检测模块 Canary, 以及社交感知的对话代理 Prost,这些都能有效地引导对话代理和现成的语言模型生成更多的亲社会回应。
May, 2022
本文提出了使用神经排序器从未标记的数据中有效地训练社交对话系统的方法,并展示了使用该方法通过优化长度作为目标的排序器在性能上优于优化用户评级的排序器,从而可简化未来社交对话代理的数据收集。
Nov, 2018