超越对齐:针对大型语言模型的原子偏好增强的真实性调整
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化,使其在保持指令遵循能力的同时,输出更多真实的回应。
May, 2024
本研究针对大规模预训练的语言模型,设计测试集和度量标准以提高生成文本的事实准确性,提出了基于主题前缀和句子补全的事实增强训练方法,并提出了更适合提高准确性的采样算法。
Jun, 2022
评估大型语言模型的事实记忆能力及其影响因素,涵盖多个领域、知识流行度水平和模型家族,并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。
Apr, 2024
大型语言模型在自然语言处理中被广泛采用,但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而,当前的引用方法通常集中在检索阶段和自动评估上,忽视了在人类学术写作中增强可信度的引用机制的反映。本文通过将归因任务建模为偏好学习,并引入自动偏好优化(APO)框架来解决这些挑战。我们首先创建了一个经过训练的精心策划的收集 (6330 个例子),通过收集和过滤现有数据集。其次,考虑到标记偏好数据的高成本,我们进一步提出了一种自动合成归因偏好数据的方法,得到了 95263 对。此外,受人类引文过程的启发,我们还提出了一种利用细粒度信息的渐进式偏好优化方法。在 ASQA、StrategyQA 和 ELI5 三个数据集上进行了大量实验证明,APO 在引文 F1 指标上达到了最先进的水平,并且具有更高的回答质量。
Mar, 2024
该研究探讨了大型语言模型的细调策略,发现可替代方法在领域外泛化方面与标准方法相媲美,强调了对有效提示的需求,并针对可用资源和任务适应性进行合适的细调方法选择。
May, 2024
本文介绍了一种评估生成模型生成的长篇文本真实性的新方法 FActScore,其中将生成的文本分解为一系列原子事实,并计算可靠知识来源支持的原子事实的百分比,从而解决了因生成的含有相关与不相关信息的问题难以进行二元评估的问题;同时,提出了一种自动模型,可以使用检索和强语言模型来估计 FActScore,最终发现 ChatGPT 只有 58% 的精度。
May, 2023
本文研究了 QA 微调数据对下游事实性的影响,证明了微调在不太为人知的事实上时,即使在预训练期间看到了所有事实,其事实性远远不如在众所周知的事实上进行微调,我们的结果揭示了预训练知识和微调数据之间的相互作用,并在为知识密集型任务进行微调时强调了预训练模型中事实存储的重要性。
Jun, 2024
大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性,我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集,然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法(称为 SAFE),通过将长篇回复分解为一组单个事实,并使用多步推理过程(发送搜索查询到 Google 搜索并确定搜索结果是否支持事实)来评估每个事实的准确性。此外,我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准,通过将回复中的支持事实的百分比(准确率)与相对于用户首选回复长度的超参数表示的提供事实的百分比(召回率)进行平衡。实证上,我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致,在 100 个不一致案例的随机子集中,SAFE 赢得了 76% 的情况。与此同时,SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试,涵盖四个模型系列(Gemini,GPT,Claude 和 PaLM-2),发现较大的语言模型通常可以实现更好的长篇事实性。LongFact,SAFE 和所有实验代码均可在此 https URL 中获取。
Mar, 2024