朝着真实的多语言大型语言模型迈进：基准测试和对齐策略

Jun, 2024

朝着真实的多语言大型语言模型迈进：基准测试和对齐策略

Towards Truthful Multilingual Large Language Models: Benchmarking and Alignment Strategies

Weihao Liu, Ning Wu, Wenbiao Ding, Shining Liang, Ming Gong...

TL;DR在大型语言模型（LLMs）时代，构建能够为全球用户提供服务的多语言大型语言模型（MLLMs）具有重要意义。然而，现有研究很少关注 MLLMs 的真实性。同时，当代多语言对齐技术在平衡大量语言方面常常存在严重的真实性差距，特别是那些与英语差距较大的语言。在我们的工作中，我们构建了一个用于多语言场景下真实性评估的基准，并探索了跨语言对齐事实以增强 MLLMs 真实性的方法。此外，我们提出了面向事实感知的多语言选择协同（FaMSS），以优化大量语言和不同数据类型之间的数据分配。实验结果表明，我们的方法可以有效减少多语言表示差异并增强 LLMs 的多语言能力。

Abstract

In the era of large language models (LLMs), building multilingual large language models (MLLMs) that can serve users worldwide holds great significance. However, existing research seldom focuses on the truthfulness of MLLMs. Meanwhile, contemporary →

large language models multilingual large language models truthfulness evaluation multilingual aligning technologies fact-aware multilingual selective synergy

发现论文，激发创造

Multi - 向性知识评估：利用 FActScore 评估多语言 LLMs 的多区域知识

本研究通过对九种语言进行分析，系统评估了跨语言和地理区域的多语言大型语言模型的事实准确性，发现英语在事实准确性和生成事实的数量方面一直表现优异，并且多语言模型对来自西方大陆的事实信息存在偏见，这些发现凸显了改善多语言事实评估的需求和大型语言模型事实生成中的地理偏差。

Feb, 2024

多语言大型语言模型综述：语料库、对齐和偏差调查

该研究分析了多语言大型语言模型（MLLMs）的关键问题，包括语言不平衡、多语言对齐和固有偏差，探讨 MLLMs 的全球语言表示能力、偏见和挑战，并提出了有前景的研究方向。

Apr, 2024

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

2024 年大型语言模型的事实性

大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进 LLM 的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Feb, 2024

FELM: 大型语言模型真实性评估基准

评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域，目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题，我们介绍了一个名为 felm 的大型语言模型真实性评估基准，该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释，我们可以帮助定位具体的事实错误。然而，我们的实验证实，当前的语言模型在忠实地检测事实错误方面还远远不够满意。

Oct, 2023

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

诚实对齐

应用对齐技术以增强大型语言模型（LLMs）的有益性和无害性，保证其在人类意图下主动拒绝回答缺乏知识的问题时不会过于保守是至关重要的。本文通过建立明确的问题定义，以及定义了《论语》所启发的 “诚实” 的基石，解决了识别 LLM 知识限度的挑战，并引入了一个灵活的训练框架和几种强调诚实而不损害其他任务性能的有效微调技术，通过提出的度量方法，证明这些对齐模型在诚实性方面有显著提高。

Dec, 2023

LLMs 作为事实推理器：现有基准和未来展望的洞见

通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点，该数据集比以前的数据集更高效且高度可重复。然而，大多数 LL 模型在 SummEdits 上表现不佳，最好的 GPT-4 模型仍然比人类的表现差 8％，这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。

May, 2023

大型语言模型中的可信源对齐

本文提出了大语言模型（LLMs）的一个属性 —— 受信任的来源对齐（TSA），用于衡量模型在面对不确定性或争议时与受信任的发布者内容的一致性。在 FactCheckQA 评估数据集上应用该属性，作者发现随着模型规模的增大，模型在对齐受信任来源方面的性能从随机状态提高到最高 80% 的平衡准确率。

Nov, 2023