RENOVI: 一个解决社会文化对话中规范违反的基准
本研究探讨了自动识别社交规范违规现象的任务,提出了一种预测模型,使用循环神经网络和多模态信息实现社交规范违规现象的标识,从而达到了 0.705 的 F1 分数,同时讨论了开发社交感知代理的工作的影响。
Oct, 2016
社会规范对人际交往产生根本性的影响。本研究介绍了 NormDial,一个高质量的双向对话数据集,其中具有中美文化中社会规范的每个交互回合的注释。通过引入社会规范遵守检测任务,我们使用人机协同流程使用少量由专家注释的社会规范提示大型语言模型在中英文中合成生成了数据集。我们通过人工评估表明我们生成的对话质量很高,并进一步评估现有大型语言模型在此任务上的性能。研究结果指向了跨语言和文化对话背景中了解社会规范微妙之处的新方向。
Oct, 2023
通过语言模型提示和自我验证机制,NormSAGE 框架可以发现符合人类交流和互动中的多语言、多文化规范,评估结果表明,与基线相比,该方法能够在语境中发现更多相关且有意义的规范,同时发现的中文对话的规范灵敏度和正确性与英文对话相当。该方法同时可以识别符合文化特定的规范,并通过可解释性和透明度支持动态实例化对话中的任何规范遵守和违规,并在传达自然语言解释时达到人类写作质量的水平。
Oct, 2022
本研究提出了一种使用基于提示的学习,用于检测在线社区中的规范违规行为。CPL-NoViD 通过自然语言提示将上下文融合到模型中,展示了对于不同类型的规则具有改进的性能,它不仅在跨规则类型和跨社区规范违反检测方面表现出色,而且在少样本学习场景中也表现出了适应性,取得了超越现有基准的新的最佳表现。
May, 2023
本文针对社交媒体上的冲突话题,研究了如何利用个性化方法对 13k 个标注者进行标注,比较了该方法在预测社交规范感知方面的有效性,并对不同关系下的社会情境的性能进行了分析。
Oct, 2022
本文提出了 NormMark,一种基于概率生成的马尔可夫模型,通过离散和连续的隐变量去捕获会话历史中的特征,提高规范识别的能力。在弱批注数据集上,本方法的 F1 分数更高,超过了当前最先进的方法,包括 GPT3。
May, 2023
我们提出了一个新的挑战,以检验大型语言模型是否理解社会规范。我们的数据集需要对社会规范有基本的理解才能解决,它包含了 402 种社会规范技能和 12,383 个问题,涵盖了从意见和争论到文化和法律的广泛社会规范。我们根据 K-12 课程设计了数据集,使得能够直接将大型语言模型的社会理解与人类,特别是小学生进行比较。尽管先前的研究在我们提出的基准测试上几乎随机准确,但最近的大型语言模型如 GPT3.5-Turbo 和 LLaMA2-Chat 能够显著提高性能,仅稍微低于人类的表现。然后,我们提出了一种基于大型语言模型的多智能体框架,以提高模型理解社会规范的能力。这种方法进一步改进了大型语言模型与人类的水平相当。考虑到大型语言模型在现实应用中的日益普及,我们的发现尤为重要,为未来的改进提供了独特的方向。
Apr, 2024