SocialDial: 一个用于社交感知对话系统的基准测试
本文提出了使用神经排序器从未标记的数据中有效地训练社交对话系统的方法,并展示了使用该方法通过优化长度作为目标的排序器在性能上优于优化用户评级的排序器,从而可简化未来社交对话代理的数据收集。
Nov, 2018
本文提出了一种社会偏见检测的新框架Dial-bias,通过该框架构建了中文社会偏见对话数据集,并建立了不同粒度和输入类型的对话偏见检测基准,旨在帮助实践中构建更安全的对话系统。
Feb, 2022
ProsocialDialog是第一个大规模的多轮对话数据集,用于教授对话代理在遵循社会准则的情况下回应不安全的用户话语。该数据集包括58K个对话,331K条话语和160K个唯一的RoTs,并配有497K个对话的安全标签。通过人工智能协作框架创建,该数据集提出了一种对话安全检测模块Canary,以及社交感知的对话代理Prost,这些都能有效地引导对话代理和现成的语言模型生成更多的亲社会回应。
May, 2022
本文提出了SODA数据集,该数据集包含100万个高质量的社交对话,利用该数据集训练了COSMO,一个可推广的谈话代理,在域内和域外数据集上表现优异,同时进行了广泛的评估,并与以前最优秀的谈话模型进行了比较,结果表明COSMO在未知数据集上表现更加自然和一致。
Dec, 2022
社会规范对人际交往产生根本性的影响。本研究介绍了NormDial,一个高质量的双向对话数据集,其中具有中美文化中社会规范的每个交互回合的注释。通过引入社会规范遵守检测任务,我们使用人机协同流程使用少量由专家注释的社会规范提示大型语言模型在中英文中合成生成了数据集。我们通过人工评估表明我们生成的对话质量很高,并进一步评估现有大型语言模型在此任务上的性能。研究结果指向了跨语言和文化对话背景中了解社会规范微妙之处的新方向。
Oct, 2023
结合话题建模,研究Schema-Guided Dialogues和MultiWOZ的训练集,发现社交对话序列的存在,进一步推动了如何将闲聊融入任务导向对话的研究。
Nov, 2023
我们提出了一个新的挑战,以检验大型语言模型是否理解社会规范。我们的数据集需要对社会规范有基本的理解才能解决,它包含了402种社会规范技能和12,383个问题,涵盖了从意见和争论到文化和法律的广泛社会规范。我们根据K-12课程设计了数据集,使得能够直接将大型语言模型的社会理解与人类,特别是小学生进行比较。尽管先前的研究在我们提出的基准测试上几乎随机准确,但最近的大型语言模型如GPT3.5-Turbo和LLaMA2-Chat能够显著提高性能,仅稍微低于人类的表现。然后,我们提出了一种基于大型语言模型的多智能体框架,以提高模型理解社会规范的能力。这种方法进一步改进了大型语言模型与人类的水平相当。考虑到大型语言模型在现实应用中的日益普及,我们的发现尤为重要,为未来的改进提供了独特的方向。
Apr, 2024
本研究解决了社会交往中对话生成的不足,提出了一种可控的对话生成框架,涵盖多种参与者的特征和关系类型。研究发现,该框架生成的NormHint对话集合在自然性和情境匹配上表现优异,能够揭示社会规范的违规行为及其解决方案,对社会交往的理解具有重要影响。
Oct, 2024
本研究解决了在社会意识对话中缺乏高质量社会文化规范的问题。通过利用大型语言模型构建全面的社会文化规范库,研究者提出了一种创新的方法,使用合成数据进行训练,获得的规范质量与真实数据相当。这一发现对提升对话系统在多种任务中的表现具有重要影响。
Oct, 2024
本研究解决了自然语言处理模型在对话中缺乏文化意识的问题。我们提出了一种“文化背景框架”,整合了对话信息和文化信息,并生成了大量符合中国文化的社会规范与违规行为描述。实验结果表明,该数据集提升了情感、情绪和对话行为检测等下游任务的性能。
Oct, 2024