研究了预训练语言模型的一致性,发现它们在事实知识方面缺乏一致性,且表现良莠不齐;提出了一种改善模型一致性的方法,并在实验中证明其有效性。
Feb, 2021
探讨预训练多语言语言模型的组公平性,通过创建一个新的平行洞察测试实例的多语言数据集(MozArt)及使用人口统计信息来评估三种多语言模型(mBERT,XLM-R 和 mT5),我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性,例如在西班牙语中表现出接近相等的风险,但在德语中表现出高水平的不平等。
Oct, 2022
该研究创建了一个跨 23 种不同语言的多语言基准测试,旨在评估语言模型中的事实知识检索能力,并提出了基于语言切换的方法来提高多语言模型获取知识的能力。
Oct, 2020
对多语言大规模预训练语言模型进行研究,发现不同语言之间的事实知识存在显著差异。为了确保具有不同语言背景的用户从同一模型中获得一致的反馈,我们提出了一种基于排名的一致性评估指标,并对模型层面和语言对层面的一致性决定因素进行了深入分析。研究结果表明,增加模型规模可以提高大多数语言的事实检测准确性,但无法改善跨语言一致性。通过在模型编辑中插入新的事实关联进行的案例研究显示,新的知识仅传递给与英语具有较高排名一致性得分的语言。
Oct, 2023
翻译 TREx 和 GoogleRE 两项基准测试为 53 种语言,使用 mBERT 模型研究其作为多语言知识库的性能及影响因素,发现其性能因被查询的语言而异,同时使用多种语言的预测结果可提高性能。
本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果,针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。
Dec, 2022
本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范,并将其强加在其他语言中,以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了 MoralDirection 框架,分析了在过滤的平行字幕语料库上的模型行为,并将模型应用于道德基础调查问卷,比较不同国家的人类反应。实验表明,预训练的多语言语言模型确实会编码不同的道德偏见,但这些偏见不一定对应于人类观点的文化差异或共性。
Nov, 2022
多语言语言模型的综合评估:mBERT、XLM-R 和 GPT-3 在具有不同语言环境的各种语言上的性能评估,发现资源可用性对模型性能有重要影响,并且资源可用性、语言家族和脚本类型之间存在复杂关系,为模型选择和部署提供了见解。
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
通过使用符号知识蒸馏方法改善小型预训练模型的事实一致性,我们在对话摘要中取得了更好的事实一致性,同时保持了连贯性、流畅性和相关性。
Jun, 2024