多语种预训练语言模型的事实一致性

Mar, 2022

多语种预训练语言模型的事实一致性

Factual Consistency of Multilingual Pretrained Language Models

Constanza Fierro, Anders Søgaard

TL;DR本文调查了多语言语言模型（如 mBERT 和 XLM-R）在一些语言下对事实知识预测的一致性，并发现尽管在英语下，这些模型的一致性与其单语言模型相似，但在其他 45 种语言下，这些模型的一致性程度却较低。

Abstract

pretrained language models can be queried for factual knowledge, with potential applications in knowledge base acquisition and tasks that

pretrained language models factual knowledge multilingual setting consistency language

发现论文，激发创造

预训练语言模型的一致性测量和提升

研究了预训练语言模型的一致性，发现它们在事实知识方面缺乏一致性，且表现良莠不齐；提出了一种改善模型一致性的方法，并在实验中证明其有效性。

Feb, 2021

预训练的多语言模型在不同语言间的公平性是否相同？

探讨预训练多语言语言模型的组公平性，通过创建一个新的平行洞察测试实例的多语言数据集（MozArt）及使用人口统计信息来评估三种多语言模型（mBERT，XLM-R 和 mT5），我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性，例如在西班牙语中表现出接近相等的风险，但在德语中表现出高水平的不平等。

Oct, 2022

X-FACTR: 预训练语言模型多语言事实知识检索

该研究创建了一个跨 23 种不同语言的多语言基准测试，旨在评估语言模型中的事实知识检索能力，并提出了基于语言切换的方法来提高多语言模型获取知识的能力。

Oct, 2020

多语言语言模型中事实知识的跨语言一致性

对多语言大规模预训练语言模型进行研究，发现不同语言之间的事实知识存在显著差异。为了确保具有不同语言背景的用户从同一模型中获得一致的反馈，我们提出了一种基于排名的一致性评估指标，并对模型层面和语言对层面的一致性决定因素进行了深入分析。研究结果表明，增加模型规模可以提高大多数语言的事实检测准确性，但无法改善跨语言一致性。通过在模型编辑中插入新的事实关联进行的案例研究显示，新的知识仅传递给与英语具有较高排名一致性得分的语言。

Oct, 2023

多语言 LAMA：探究多语言预训练语言模型中的知识

翻译 TREx 和 GoogleRE 两项基准测试为 53 种语言，使用 mBERT 模型研究其作为多语言知识库的性能及影响因素，发现其性能因被查询的语言而异，同时使用多种语言的预测结果可提高性能。

Feb, 2021

mFACE: 多语言事实一致性评估自动摘要

本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果，针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。

Dec, 2022

多语言使用对语言模型的道德偏见产生影响

本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范，并将其强加在其他语言中，以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了 MoralDirection 框架，分析了在过滤的平行字幕语料库上的模型行为，并将模型应用于道德基础调查问卷，比较不同国家的人类反应。实验表明，预训练的多语言语言模型确实会编码不同的道德偏见，但这些偏见不一定对应于人类观点的文化差异或共性。

Nov, 2022

mBBC: 探索多语迷宫

多语言语言模型的综合评估：mBERT、XLM-R 和 GPT-3 在具有不同语言环境的各种语言上的性能评估，发现资源可用性对模型性能有重要影响，并且资源可用性、语言家族和脚本类型之间存在复杂关系，为模型选择和部署提供了见解。

Oct, 2023

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

基于大型语言模型的事实对话摘要

通过使用符号知识蒸馏方法改善小型预训练模型的事实一致性，我们在对话摘要中取得了更好的事实一致性，同时保持了连贯性、流畅性和相关性。

Jun, 2024