- 利用 NLI 探索事实蕴含关系:新闻媒体研究
探索事实性与自然语言推理之间的关系,并引入 FactRel 注释方案来模拟事实性推理,分析表明,事实性支持对和事实性削弱对的大部分情况不构成自然语言推理的蕴含或矛盾关系,这表明事实关系更适合分析媒体话语;在新数据集上进行了对比分类模型的实验 - 通过基于激活的置信度校准和引导解码增强语言模型的真实性
在本文中,我们首先提出一种基于激活的校准方法 ActCab,它在语言模型的最后一层激活上训练一个线性层,能更好地捕捉知识的表征。在 ActCab 的基础上,我们进一步提出了一种以置信度为指导的解码策略 CoDec,以从语言模型中得到置信度高 - FoRAG: 面向增强长文本问答的事实性优化检索生成
通过研究网络增强的长格式问答,本文提出了一种新的轮廓增强生成器以实现多方面答案的清晰逻辑,并基于精心设计的双重细粒度 RLHF 框架提出了一种基于事实性优化的检索增强生成方法(FoRAG),在英文和中文基准测试中验证了其优越性。
- ACL当前估计器的可靠性和稳健性:对 LLMs 的事实置信度
大型语言模型的事实准确性不可靠,为了解决这个问题,自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而,由于缺乏系统性的比较,不清楚不同方法之间的差异。为了填补这一空白,我们提出了一个调查和实证比较事实置信度估计器的实验框架, - 超越对齐:针对大型语言模型的原子偏好增强的真实性调整
该研究针对大型语言模型在事实性上出现的错误回应现象,通过偏好学习方法对模型进行微调以提升事实性,并提出了 APEFT 框架,通过加强模型对个体事实的认识,提高了模型在不同数据集上的表现,平均提升了 3.45%。
- 检测不需要事实判断的响应生成
大型语言模型在对话中实现吸引力和真实性的研究,通过众包创建了一个对话数据集,用于分类任务,并且最高分类准确率达到了 88%。
- REAL 采样:通过渐近熵促进开放式生成的准确性和多样性
本文提出了一种名为 REAL(Residual Entropy from Asymptotic Line)采样的解码方法,通过预测自适应阈值 $p$,实现了比核心采样更好的准确性和多样性。实验结果表明,结合对比解码后,REAL 采样优于 9 - 通过事实性评分和来源归属促进人类与语言模型的合作
研究表明,为了有效地与用户沟通大型语言模型的事实准确性和来源归属,使用词组的颜色编码、高亮相关源材料或在响应中加注参考编号等设计策略,有助于提高用户对大型语言模型的信任评级和验证回答准确性的方便程度。
- OLAPH: 改进生物医学长篇问答中的事实性
在医学领域中,通过使用 MedLFQA 数据集,我们引入了一个简单而新颖的框架 OLAPH,通过自动评估提高真实性,有效训练大型语言模型以生成长篇答案,达到与医学专家答案相当的水平。
- TAXI:评估语言模型的分类知识编辑
人工编辑语言模型的知识注入对语义的一致性要求较高,现有的基准数据集无法充分评估一致性,本文创建了 TAXI 基准数据集,并使用它评估了流行编辑器的一致性表现,发现编辑器的一致性明显低于人类基准,且在编辑非典型主题时更易实现一致性。
- ISQA: 科学摘要的信息性事实反馈
我们提出了迭代性的逐渐精化的信息科学问答(ISQA)反馈方法,该方法遵循人类学习理论,利用模型生成的正负反馈来增强科学概述的真实性,通过迭代细化概述探索语句的基本原理。这种 ISQA 以细粒度的方式进行,通过要求概述代理在正反馈中加强验证的 - 基于熵指导的外推解码方法提升大型语言模型中的事实准确性
大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力,但存在虚构结果的问题。最近的研究关注于解码技术,通过利用 LLMs 的分层表示技术及在推理过程中操纵预测分布,提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下 - 幻觉排行榜 - 量化大型语言模型中的幻觉
该论文介绍了幻觉排行榜,一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议,通过一系列综合评估模型的基准测试,如准确性和忠实度等方面,涵盖了问答、摘要和阅读理解等不同任务,为研究人员和实践者指导选择最可靠的模型。
- 大型语言模型中的长篇事实准确性
大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性,我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集,然后提出利用 LLM 代理作为长篇事实性的自动化评估 - COLING事实陈述可以具有欺骗性吗?以信念为基础的欺骗的 DeFaBel 语料库
在研究中,我们通过创造 DeFaBel 语料库来探讨欺骗与真实性以及个人信念之间的关系,该语料库是首个公开可用于研究德语欺骗的资源,其中包含 1031 个文本,其中 643 个是欺骗性的,388 个是非欺骗性的。
- 增强大型语言模型的事实性通过协同解码关键标记
使用协作解码框架来减少语言模型产生幻觉的重要性,通过利用预训练模型中的高度事实性来生成下一个标记,可以有效地降低模型的幻觉发生率。
- UFO: 一个用于评估大型语言模型事实性的统一灵活框架
大语言模型(LLMs)可能生成与人类知识不一致的文本,导致事实错误或产生虚构。为解决这些问题,本研究将可用的事实来源分类为人工书写证据、参考文献、搜索引擎结果和 LLM 知识,并提出了一种名为 UFO 的基于 LLM 的统一灵活评估框架,以 - 自我对齐以提高事实准确性:通过自我评估减少 LLMs 中的幻觉
探索使用自我评估和自我知识调整的自对齐方法,以增强大语言模型的事实准确性。
- HGOT: 检索辅助上下文学习中的思想层次图对真实性评估
利用大语言模型(LLMs)在检索增强的上下文学习中的层次图思路(HGOT),该框架通过将复杂查询细分为可管理的子查询,并使用最近提出的引文召回和精度指标来评估思想的质量,从而增强了 LLMs 的真实性。
- 跨领域评估零样本摘要生成器的真实性
大型语言模型(LLM)的零摘要生成与人工编写的参考摘要相媲美,我们评估了零摘要生成摘要在生物医学文章等专业领域的实际性,并通过领域专家注释识别总结中的不一致性。