大型语言模型中的可信源对齐

Nov, 2023

Trusted Source Alignment in Large Language Models

Vasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun...

TL;DR本文提出了大语言模型（LLMs）的一个属性 —— 受信任的来源对齐（TSA），用于衡量模型在面对不确定性或争议时与受信任的发布者内容的一致性。在 FactCheckQA 评估数据集上应用该属性，作者发现随着模型规模的增大，模型在对齐受信任来源方面的性能从随机状态提高到最高 80% 的平衡准确率。

Abstract

large language models (LLMs) are trained on web-scale corpora that inevitably include contradictory factual information from sources of varying reliability. In this paper, we propose measuring an LLM property called trusted source alignment (TSA): the model's propensity to align with c

large language models trusted source alignment factcheckqa evaluation dataset trusted sources

发现论文，激发创造

朝着真实的多语言大型语言模型迈进：基准测试和对齐策略

在大型语言模型（LLMs）时代，构建能够为全球用户提供服务的多语言大型语言模型（MLLMs）具有重要意义。然而，现有研究很少关注 MLLMs 的真实性。同时，当代多语言对齐技术在平衡大量语言方面常常存在严重的真实性差距，特别是那些与英语差距较大的语言。在我们的工作中，我们构建了一个用于多语言场景下真实性评估的基准，并探索了跨语言对齐事实以增强 MLLMs 真实性的方法。此外，我们提出了面向事实感知的多语言选择协同（FaMSS），以优化大量语言和不同数据类型之间的数据分配。实验结果表明，我们的方法可以有效减少多语言表示差异并增强 LLMs 的多语言能力。

Jun, 2024

SPOT: 从原创性评分阈值预测文本来源

从信任的角度来研究大型语言模型（LLMs）生成的文本，我们提出了一种有效的方法 SPOT，通过原创度评分来对任意文本输入进行源分类，该方法对于现代 LLMs 的架构、训练数据、评估数据、任务和压缩表现出了稳健性。

May, 2024

值得信赖的 LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度，包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。

Aug, 2023

大型语言模型可以评估新闻媒体的可信度

本研究评估了 ChatGPT 对新闻机构的可信度评估能力，结果显示大型语言模型可用于事实核查应用程序。

Apr, 2023

面向基于证据的问答的忠实且鲁棒的 LLM 专家

通过可靠的信息来源来提高大型语言模型在证据型问答中的源质量和答案可归因性，我们通过引入一个数据生成管道和质量筛选器来增强数据质量，从而提高大型语言模型的性能。

Feb, 2024

TrustScore: 无需参考的 LLM 响应可信度评估

本研究提出了基于行为一致性概念的 TrustScore 框架，用于评估大型语言模型（LLMs）的响应与其内在知识的一致性，同时能够与事实核实方法无缝集成，实现与人类判断强相关性的结果。

Feb, 2024

大语言模型事实核查的风险与前景

自动事实核查（使用机器学习来验证主张）已经变得至关重要，因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型（LLMs），如 GPT-4，越来越受人们的信任，可以验证信息并撰写学术论文、诉讼文件和新闻文章，强调了它们在分辨真假和能够验证其输出的重要性。在这里，我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是，在我们的框架中，代理人解释他们的推理并引用检索到的相关来源。我们的结果显示，在配备上下文信息的情况下，LLMs 表现出更强大的能力。GPT-4 优于 GPT-3，但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景，但仍需要谨慎使用，因为准确性不一致。我们的调研呼吁进一步研究，以更深入地了解代理人何时成功以及何时失败。

Oct, 2023

可验证的设计：将语言模型与预训练数据中的引文对齐

我们提出了 Quote-Tuning 方法，通过在预训练数据中引用可靠来源的一字不差的陈述，将模型与 Quote 对齐，明显提高了 LLM 生成引文的准确性，同时保持了回应质量，为提高 LLM 的可靠性和核实性打开了新的途径。

Apr, 2024

大型语言模型能否检测科学新闻报道中的错误信息？

使用大型语言模型检测科学报道中的虚假信息，针对缺乏明确标签的情况，提出了多种基于大型语言模型的基准架构和提示方法，包括零样本、少样本和连贯思维提示等。

Feb, 2024

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023