适应社会的语言模型处理流程 (PALMS):基于价值目标数据集
该研究介绍了一种研究方法,探究 Pre-Trained Language models 中不同文化背景下内嵌的价值观,并研究了这些模型与已有价值观测量问卷之间的对齐度较弱,讨论了如何在跨文化环境下使用这些不一致的模型以及对齐模型的方法。
Mar, 2022
针对大型语言模型在特定文化背景下应用的挑战,本文提出了一种快速自适应方法,利用特定文化知识和安全价值数据进行指导调整。实验结果表明,适应后的语言模型在领域特定知识和适应性方面显著提升,同时保持了其原有的专业优势。
Jun, 2024
本研究介绍了一个大型多语言多模态模型 Palo,它提供了 10 种主要语言(包括英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语)的视觉推理能力,总计覆盖了约 50 亿人口(世界总人口的 65%)。我们的方法采用半自动翻译方式,使用经过精调的大型语言模型将英语的多模态指令数据集转化为目标语言,以确保高语言准确性并保证可扩展性。不同语言指令的融合帮助我们提高跨多种语言的模型性能,尤其是对于印地语、阿拉伯语、孟加拉语和乌尔都语等少数被代表的语言。我们通过三个规模(17 亿、70 亿和 130 亿参数)的训练展示了该模型的普适性和可扩展性,观察到与强基线相比具有显著改进。同时,我们提出了第一个多语言多模态基准,用于评估不同语言之间的视觉推理能力。
Feb, 2024
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
通过测量语言模型对 585 个文本领域(从 nytimes.com 到 Reddit 上的 r/depression)的适应程度,本论文介绍了一种名为 Paloma 的语言模型评估方法,并使用基于指导方针的可比性组织结果,用于比较效率与成本的帕累托效率分析,还分析了预训练对不同领域适应性的影响。
Dec, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见,以及在预训练数据中表现出政治(社会,经济)偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向,这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中,本研究讨论了这些发现对 NLP 研究的影响,并提出了减轻不公平的未来方向。
May, 2023
该研究介绍了一个基于明确人类价值观的价值对齐分类框架,并从大规模语言模型中提炼价值对齐知识以构建分类器,结果表明使用显式人类价值观分类器能提高人工智能的包容性和可解释性。
Oct, 2022
评估语言模型偏见的全面评估基准数据集(CALM)是用于量化与比较语言模型社会人口统计偏见的重要资源,通过整合现有数据集并构建包含 78,400 个样例的 244 个模板的数据集,CALM 数据集更具多样性和可靠性,能更好地评估语言模型的广度和偏见。
Aug, 2023
本文系统性地研究了领域自适应训练方法,利用语言模型的生成能力产生无毒数据集达到更高的数据效率,通过实验证明了自生成方法可以有效降低大型语言模型毒性,即使使用小得多的训练数据,也可以在自动和人类评估中优于现有的基线方法,并且提出了适配器层训练方法来降低参数,实现了更好的毒性 - 困惑度平衡。
Feb, 2022