- 基于熵的检索增强大语言模型的解码
通过熵考虑引导的新型训练免耦合解码方法,提高了检索辅助的大型语言模型在从上下文中提取相关信息时的可靠性,解决了噪音干扰问题。与模型内部知识的高熵分布相对比,对检索得到的低熵集成分布进行对比解码,确保更多重视可靠的外部信息,实验证明了该方法的 - CogMG:大型语言模型与知识图谱之间的协同增强
使用协作增强框架 CogMG,结合知识图谱解决了大型语言模型在问答场景中的不完整知识覆盖和知识更新不匹配的问题,并通过监督微调的 LLM 在一个代理框架中展示了在减少幻觉和提高答案的事实准确性方面取得的显著改进。
- MFC-Bench: 基于大型视觉 - 语言模型的多模态事实核查基准测试
通过评估 MFC-Bench 对 12 个各异而代表性的大型视觉 - 语言模型进行了基准测试,发现当前模型在多模态事实核查方面仍存在不足,并对各种形式的操纵内容表现出麻木,希望通过 MFC-Bench 能够引起对未来可能由大型视觉 - 语言 - 大型语言模型中的气候虚假信息去除
气候变化的误导信息是解决人类面临的最严重威胁之一的关键障碍,本文研究了大型语言模型在气候信息方面的事实准确性。通过使用真假标记的问答数据对语言模型进行微调和评估,比较了开源模型,并评估它们对气候变化问题生成真实回答的能力。我们还研究了故意注 - FLAME: 大型语言模型的事实感知对齐
通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化,使其在保持指令遵循能力的同时,输出更多真实的回应。
- 利用 RAG 提高 LLM 事实准确性以应对幻觉:私有知识库中领域特定查询的案例研究
我们提出了一种朝着利用检索增强生成(RAG)改进大规模语言模型(LLMs)对私人知识库相关的领域特定和时间敏感查询的事实准确性的端到端系统设计。我们的系统将 RAG 流水线与上游数据集处理和下游性能评估集成在一起。通过使用源自 CMU 广泛 - Multi - 向性知识评估:利用 FActScore 评估多语言 LLMs 的多区域知识
本研究通过对九种语言进行分析,系统评估了跨语言和地理区域的多语言大型语言模型的事实准确性,发现英语在事实准确性和生成事实的数量方面一直表现优异,并且多语言模型对来自西方大陆的事实信息存在偏见,这些发现凸显了改善多语言事实评估的需求和大型语言 - DELL:基于 LLM 的误信息检测的生成式反应与解释
大语言模型在辨别新闻文章真实性方面,面临真实性和错误漫游的挑战,本研究提出了 DELL 来结合 LLMs,通过生成新闻反应、生成解释和合并专家等三个关键阶段,提高了误报检测的准确性。
- 全球撒谎者:LLMs 随时间和地域的真实性
研究评估 GPT 模型的事实准确性、稳定性和偏见,发现较新版本的 GPT 模型并不总是具有更好的性能,存在地域偏见及信息不对称问题,强调了在模型训练和评估中的文化多样性和地理包容性的重要性,以实现全球科技公平和公正分配人工智能的好处。
- 背景问题:基于图结构知识背景推动开放式回答生成的边界
通过引入图驱动的上下文检索和基于知识图谱的增强来提高大型语言模型的能力,特别是在特定领域的社区问答平台中,提供上下文丰富的数据检索与大型语言模型的配对,为 AI 系统中的知识获取和生成带来了一种新的方法。
- 地球是平的吗?揭示大型语言模型中的事实错误
我们引入了一种名为 FactChecker 的新型自动化测试框架,通过构建事实知识图谱、生成包括不同类型问题和正确答案的测试用例,以及使用匹配策略评估大型语言模型的响应准确性,从而揭示了大型语言模型中的事实错误,并展示了测试用例对提高模型的 - BaRDa:一份将事实准确性和推理能力分开的信念与推理数据集
这篇论文描述了一个名为 BaRDa 的数据集,通过利用和扩展人工注释的 “蕴涵树” 来区分现代语言模型的 “事实准确性” 和 “推理能力”,其中包括真实和虚假事实的混合使用,尤其包括反事实例子,以避免信念偏见(也称为 “内容效应”); 在四 - EMNLP在高风险领域评估大型语言模型
高风险领域中的语言模型性能评估是一个重要问题,本研究对指导调优的语言模型进行深入分析,重点关注事实准确性和安全性,通过在法律和医学两个高风险领域的六个自然语言处理数据集上进行实验,发现目前语言模型存在的局限性,并强调了提高语言模型能力和改进 - KNVQA:用于评估基于知识的视觉问答的基准
该研究论文提出了一种新的知识驱动图像问答(KNVQA)评估方法,以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题,并开发了相应的 KNVQA 数据集进行评估,从而有效评估现有方法的细粒度能力并为大型视觉 - 语 - 基于维基百科风格的调查问卷生成的大型语言模型:在 NLP 概念上的评估
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
- ACL可靠性检查:对 GPT-3 在敏感话题和提示措辞方面响应的分析
研究分析了大型语言模型对敏感主题的反应和提示措辞对模型反应的影响,结果显示 GPT-3 在肯定的阴谋论和刻板印象方面反应正确,但在常见的错误观念和争议方面则会出现错误,暴露出其不可靠性。
- 大型语言模型中平衡创造力和现实之间的权衡的数学抽象
本文着重探讨了大型语言模型(LLMs)及其在生成创造性写作和问答系统等方面的应用,并提供了一种基于损失的数学抽象模型来平衡模型的创造性和真实性。
- 类 ChatGPT 生成模型能否保证事实准确性?对新一代搜索引擎错误的探讨
研究表明,尽管像 OpenAI 的 ChatGPT 这样的大型对话 AI 模型展示了巨大的潜力,但这样的模型是否能够保证事实准确性仍值得商榷。最近,微软和谷歌等技术公司宣布推出新服务,旨在将搜索引擎与对话 AI 相结合。然而,在公开演示中, - 增强事实性的语言模型用于开放式文本生成
本研究针对大规模预训练的语言模型,设计测试集和度量标准以提高生成文本的事实准确性,提出了基于主题前缀和句子补全的事实增强训练方法,并提出了更适合提高准确性的采样算法。
- ACL文本简化中事实性评估
自动化简模型在提高文本可读性的过程中,如何保证简化之后的文本的准确性是一个需要研究的问题。本文提出了一个误差分类学,用来分析标准简化数据集和最新模型输出的简化文本的准确性问题,发现现有评估度量无法涵盖所有错误,因此需要进一步研究自动化简模型