多语言 FActScore 分析

Jun, 2024

An Analysis of Multilingual FActScore

Kim Trong Vu, Michael Krumdick, Varshini Reddy, Franck Dernoncourt, Viet Dac Lai

TL;DR对 FActScore 在线性多语言模型生成的长文本进行研究，发现不同语言中的 LLMs 在事实提取和事实评分任务中表现出不同行为，并且知识源对 FActScore 的估计质量起着重要作用。使用维基百科作为知识源可能会阻碍中小资源语言长文本的真实 FActScore，但通过三种缓解方法，可以提高对所有语言的 FActScore 估计。

Abstract

factscore has gained popularity as a metric to estimate the factuality of long-form texts generated by Large Language Models (llms) in English. However, there has not been any work in studying the behavior of

factscore multilingual setting llms fact extraction knowledge source

发现论文，激发创造

Multi - 向性知识评估：利用 FActScore 评估多语言 LLMs 的多区域知识

本研究通过对九种语言进行分析，系统评估了跨语言和地理区域的多语言大型语言模型的事实准确性，发现英语在事实准确性和生成事实的数量方面一直表现优异，并且多语言模型对来自西方大陆的事实信息存在偏见，这些发现凸显了改善多语言事实评估的需求和大型语言模型事实生成中的地理偏差。

Feb, 2024

生成言语模型事实性评估基准

本文通过提出 FACTOR 方法，使用自动转换真实语料库的方式评估语言模型的事实推理能力，并通过 Wiki-FACTOR 和 News-FACTOR 两个基准测试数据集测试方法的有效性。

Jul, 2023

FActScore: 长篇文字生成中细粒度事实准确性评估

本文介绍了一种评估生成模型生成的长篇文本真实性的新方法 FActScore，其中将生成的文本分解为一系列原子事实，并计算可靠知识来源支持的原子事实的百分比，从而解决了因生成的含有相关与不相关信息的问题难以进行二元评估的问题；同时，提出了一种自动模型，可以使用检索和强语言模型来估计 FActScore，最终发现 ChatGPT 只有 58% 的精度。

May, 2023

大型语言模型中的长篇事实准确性

大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性，我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集，然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法（称为 SAFE），通过将长篇回复分解为一组单个事实，并使用多步推理过程（发送搜索查询到 Google 搜索并确定搜索结果是否支持事实）来评估每个事实的准确性。此外，我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准，通过将回复中的支持事实的百分比（准确率）与相对于用户首选回复长度的超参数表示的提供事实的百分比（召回率）进行平衡。实证上，我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致，在 100 个不一致案例的随机子集中，SAFE 赢得了 76% 的情况。与此同时，SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试，涵盖四个模型系列（Gemini，GPT，Claude 和 PaLM-2），发现较大的语言模型通常可以实现更好的长篇事实性。LongFact，SAFE 和所有实验代码均可在此 https URL 中获取。

Mar, 2024

FELM: 大型语言模型真实性评估基准

评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域，目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题，我们介绍了一个名为 felm 的大型语言模型真实性评估基准，该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释，我们可以帮助定位具体的事实错误。然而，我们的实验证实，当前的语言模型在忠实地检测事实错误方面还远远不够满意。

Oct, 2023

X-FACTR: 预训练语言模型多语言事实知识检索

该研究创建了一个跨 23 种不同语言的多语言基准测试，旨在评估语言模型中的事实知识检索能力，并提出了基于语言切换的方法来提高多语言模型获取知识的能力。

Oct, 2020

X-FACT：一个新的用于多语言事实检查的基准数据集

本研究介绍了 X-FACT 数据集，这是目前最大的公开的多语言事实验证数据集，其中包含 25 种语言的短语句，并由专业事实检查者标记真实性，数据集包含多语言评估基准测试，并使用现代化的多语言变压器模型开发了多个自动事实检查模型，实证表明模型的最佳性能 F1 分数约为 40％，因此是评估多语言事实检查模型的挑战性基准测试。

Jun, 2021

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

朝着真实的多语言大型语言模型迈进：基准测试和对齐策略

在大型语言模型（LLMs）时代，构建能够为全球用户提供服务的多语言大型语言模型（MLLMs）具有重要意义。然而，现有研究很少关注 MLLMs 的真实性。同时，当代多语言对齐技术在平衡大量语言方面常常存在严重的真实性差距，特别是那些与英语差距较大的语言。在我们的工作中，我们构建了一个用于多语言场景下真实性评估的基准，并探索了跨语言对齐事实以增强 MLLMs 真实性的方法。此外，我们提出了面向事实感知的多语言选择协同（FaMSS），以优化大量语言和不同数据类型之间的数据分配。实验结果表明，我们的方法可以有效减少多语言表示差异并增强 LLMs 的多语言能力。

Jun, 2024

LongDocFACTScore: 长文本摘要的事实评估

维护事实一致性是抽象文本摘要中的关键问题，传统的自动度量标准无法评估它，最近的研究致力于使用预训练语言模型开发改进的度量方法，但这些度量方法存在令人限制的标记限制，因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能，并提出了一种新的评估框架 LongDocFACTScore，该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外，我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时，LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。

Sep, 2023