多语言语言模型中事实知识的跨语言一致性

EMNLPOct, 2023

多语言语言模型中事实知识的跨语言一致性

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models

Jirui Qi, Raquel Fernández, Arianna Bisazza

TL;DR对多语言大规模预训练语言模型进行研究，发现不同语言之间的事实知识存在显著差异。为了确保具有不同语言背景的用户从同一模型中获得一致的反馈，我们提出了一种基于排名的一致性评估指标，并对模型层面和语言对层面的一致性决定因素进行了深入分析。研究结果表明，增加模型规模可以提高大多数语言的事实检测准确性，但无法改善跨语言一致性。通过在模型编辑中插入新的事实关联进行的案例研究显示，新的知识仅传递给与英语具有较高排名一致性得分的语言。

Abstract

multilingual large-scale pretrained language models (PLMs) have been shown to store considerable amounts of factual knowledge, but large variations are observed across languages. With the ultimate goal of ensurin

multilingual large-scale pretrained language models cross-lingual consistency factual knowledge ranking-based consistency model editing

发现论文，激发创造

大型语言模型中知识基础的跨语言不一致性评估

这篇论文研究了大型语言模型（LLMs）中存在的跨语言的不一致性，并通过创新的评估方法和指标，综合评估了模型在语义、准确性和及时性方面的一致性，以提升对多语言能力和可解释性的理解和改进，为更强大和可靠的多语言模型的开发做出贡献。

Jul, 2024

X-FACTR: 预训练语言模型多语言事实知识检索

该研究创建了一个跨 23 种不同语言的多语言基准测试，旨在评估语言模型中的事实知识检索能力，并提出了基于语言切换的方法来提高多语言模型获取知识的能力。

Oct, 2020

多语种预训练语言模型的事实一致性

本文调查了多语言语言模型（如 mBERT 和 XLM-R）在一些语言下对事实知识预测的一致性，并发现尽管在英语下，这些模型的一致性与其单语言模型相似，但在其他 45 种语言下，这些模型的一致性程度却较低。

Mar, 2022

预训练语言模型的一致性测量和提升

研究了预训练语言模型的一致性，发现它们在事实知识方面缺乏一致性，且表现良莠不齐；提出了一种改善模型一致性的方法，并在实验中证明其有效性。

Feb, 2021

概念一致性揭示大型语言模型的内部机理

该论文提出了一种概念一致性测量方法，通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应，来测量 LLM 对相关概念的理解程度。研究表明，目前的 LLM 在常识推理方面存在显著差异，并能够向构建具有理解力的人工智能迈进一步。

Sep, 2022

Multi - 向性知识评估：利用 FActScore 评估多语言 LLMs 的多区域知识

本研究通过对九种语言进行分析，系统评估了跨语言和地理区域的多语言大型语言模型的事实准确性，发现英语在事实准确性和生成事实的数量方面一直表现优异，并且多语言模型对来自西方大陆的事实信息存在偏见，这些发现凸显了改善多语言事实评估的需求和大型语言模型事实生成中的地理偏差。

Feb, 2024

英国女王并非英国的女王：关于基于语言模型的事实连贯性缺失

在本研究中，我们考虑了预训练语言模型（PLMs）中的实际知识的一种补充性特征，即 PLMs 中实际知识的连贯性。我们的结果表明，PLMs 在使用手动编写的、优化的和改写的提示时具有较低的连贯性，但包含证据段落则会有显著改善。这表明 PLMs 未能建模逆关系，并需要进一步增强才能以连贯的方式处理从其参数中检索事实，并被视为知识库。

Feb, 2024

评估大型语言模型知识的可靠性

本文提出了一种名为 MONITOR 的新度量方法，用于直接衡量大型语言模型的事实可靠性，通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明 MONITOR 对于评估大型语言模型的事实可靠性具有良好的效果，并且计算开销较低。此外，作者还发布了包含 210,158 个提示的 FKTC 测试集，以促进相关研究的开展。

Oct, 2023

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024

多语言大型语言模型的跨语言能力和知识障碍

通过评估六种最先进的大型语言模型在跨语言任务上的表现，本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力，但在更深层次的跨语言知识转移上存在困难，揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法，有效减少了这些差距，甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。

Jun, 2024