适用于特定文化背景的大型英语语言模型的方法论
我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍 NormAd 数据集评估 LLMs 在不同社会文化情境中适应性的表现。研究发现 LLMs 在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs 在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了 LLMs 的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。
Apr, 2024
该研究定义了文化适应的任务,并创建了一个评估框架来评估不同模型在这个任务上的性能。研究评估了现代 LLMs 在文化适应方面的表现,分析了它们在不同文化之间连接相关概念时的跨文化知识,并分析了自动适应中可能存在的文化偏见和刻板印象。希望该任务能够更深入地了解 LLMs 在跨文化情境中的文化理解和创造力。
Jun, 2024
通过对已有大语言模型进行适应和扩展,我们研究了构建语言专属的大语言模型。我们通过系统实验探究基础模型选择、词汇扩展和持续微调等设计选择对适应后的大语言模型的效率(编码同样数量信息所需的词汇数)和最终任务性能的影响。我们发现,(1)适应前的初始性能并不总是最终性能的指示;(2)大多数研究的大语言模型可以通过简单的词汇扩展和持续微调来提高效率;(3)最佳的适应方法高度依赖于语言,简单的方法在各种实验设置中都表现良好。与适应多语言模型相比,适应以英语为中心的模型在资源稀缺语言上可以取得更好的结果。总之,我们的工作为通过适应现有大语言模型高效构建语言专属大语言模型奠定了基础。
Jun, 2024
提出了一种经济高效的解决方案 CultureLLM,利用 World Value Survey (WVS) 作为种子数据,通过提议的语义数据增强方法生成语义上等价的训练数据,然后使用这些数据对文化特定的 LLMS 进行微调,以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型,例如 GPT-3.5(8.1%)和 Gemini Pro(9.5%),且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等,为 LLMs 的增强提供了有效的解决方案。
Feb, 2024
通过文献综述和第一手实验,本文研究了大型语言模型(LLMs)的潜力。尽管 LLMs 具有成本效益和高效性等优点,但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解,强调了成功和限制。此外,本文还讨论了缓解挑战的策略,如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作,并积极促进其负责任的应用,以此回应关于 LLMs 在研究中负责任应用的持续对话。
Apr, 2024
通过调查人类社会学的实际问卷与模型响应的对比,我们的研究发现,大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性,即当以特定文化的主要语言作为提示时,以及当使用该文化所采用的多语言精炼混合体系进行预训练时,对于模拟调查的不同人物与敏感社会议题,模型的文化一致性更加重要。最后,我们引入了人类学提示的创新方法,利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性,对于跨语言传递的影响的必要性。
Feb, 2024
通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验,我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异,其通用常识能力受到文化环境的影响,并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现,我们的研究指出了大型语言模型在文化理解方面的固有偏见,并提供了帮助开发具备文化意识的语言模型的洞见。
May, 2024
我们详细调查了将 LLMs 适应到新语言的过程,包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题,我们的实验覆盖了 9 种语言和 2 个参数规模,并与先前的基准模型进行比较,我们的模型表现优于所有先前已发表的基准模型。
Apr, 2024
这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT(OpenAI)和 Bard(Google)来探讨了大型语言模型的文化自我认知,结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要,因为我们不希望人工智能的黑盒子延续偏见,使人类在无意中创造和训练更加带有偏见的算法。
Dec, 2023