文化背景导向谈话的LLM-人类流程
通过语言模型提示和自我验证机制,NormSAGE框架可以发现符合人类交流和互动中的多语言、多文化规范,评估结果表明,与基线相比,该方法能够在语境中发现更多相关且有意义的规范,同时发现的中文对话的规范灵敏度和正确性与英文对话相当。该方法同时可以识别符合文化特定的规范,并通过可解释性和透明度支持动态实例化对话中的任何规范遵守和违规,并在传达自然语言解释时达到人类写作质量的水平。
Oct, 2022
本文提出了第一个基于中国社会文化的社交感知对话语料库- SocialDial,使用 ChatGPT生成了 4,870 段数据,并评估了使用BERT和RoBERTa等预训练模型的数据集。
Apr, 2023
基于环境学习的描述性社会规范模型构建方法,探索中美两国社会规范文化差异,构建对齐社会情境下3,069个高质量社会规范的数据集,并提出可检验社会规范蕴含的任务,从而证明现有模型在自动和人类评估方面均有提升空间。
May, 2023
社会规范对人际交往产生根本性的影响。本研究介绍了NormDial,一个高质量的双向对话数据集,其中具有中美文化中社会规范的每个交互回合的注释。通过引入社会规范遵守检测任务,我们使用人机协同流程使用少量由专家注释的社会规范提示大型语言模型在中英文中合成生成了数据集。我们通过人工评估表明我们生成的对话质量很高,并进一步评估现有大型语言模型在此任务上的性能。研究结果指向了跨语言和文化对话背景中了解社会规范微妙之处的新方向。
Oct, 2023
推广Norm违规疗法,ReNoVi是一个大规模对话语料库,包含9258个带有社会规范标注的多轮对话,以及定义了一系列任务,以逐步理解和纠正违规行为,从而使交互式AI系统具备疗法能力。
Feb, 2024
我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。
Apr, 2024
通过CulturePark,我们生成了41,000个文化样本,用于优化八个特定文化的LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型,结果表明在内容审查方面,基于GPT-3.5的模型要么与GPT-4相匹配,要么胜过它。在文化协调方面,我们的模型优于GPT-4的Hofstede的VSM 13框架。此外,针对人类参与者的文化教育,我们的模型在学习效果和用户体验方面与GPT-4相比展现了卓越的结果。CulturePark是解决文化偏见和推动人工智能民主化的重要进展,突显了文化包容性数据在模型训练中的关键作用。
May, 2024
本研究旨在解决现有大型语言模型在文化知识评估方面的不足,提出了一种新的评估工具CulturalBench,包含1,227个涵盖45个全球区域的问题。研究发现,尽管最先进的模型在某些区域表现出色,但普遍在南美和中东的问题上表现不佳,尤其在回答多答案问题时趋向于单一答案。
Oct, 2024
本研究解决了在社会意识对话中缺乏高质量社会文化规范的问题。通过利用大型语言模型构建全面的社会文化规范库,研究者提出了一种创新的方法,使用合成数据进行训练,获得的规范质量与真实数据相当。这一发现对提升对话系统在多种任务中的表现具有重要影响。
Oct, 2024
本研究针对大规模语言模型在应用中对用户文化敏感性的需求进行了调查,指出了当前文献中的不足之处。通过提出跨文化数据集的创建方法和文化纳入策略,本论文总结了在文本和多模态语言模型中增强文化意识的最新进展。研究发现,推动文化对齐不仅能提高语言模型的包容性,还有助于社会科学研究的发展。
Oct, 2024