- 2024 年大型语言模型的事实性
大语言模型(LLMs),尤其是适用于聊天的指导模型,已成为我们日常生活中的一部分,通过在一个地方提供简单的答案,使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而,很多情况下,LLM 的回答是错误的,这限制了它们在实际场景中的适用性。因 - 通过引发幻觉减轻大型语言模型的幻觉
提出的 “感应 - 对比解码” 策略通过降低幻觉导致的不真实预测,增强了大型语言模型生成内容的可信度。在多个模型规模和系列上的实验证明,该方法能有效提高大型语言模型的内容真实性。
- LVLM 能理解图表吗?分析和纠正图表标题中的事实错误
通过引入事实性错误的全面分类学,该研究分析各种图表字幕模型生成的错误模式和频率,从而为生成可靠的图表字幕确保事实性的任务奠定了基础。同时,提出了一种有效的两阶段框架来纠正这些错误,以及一种视觉蕴涵模型用于评估事实一致性。
- 系统 2 关注力(您可能也需要)
为了改善 Transformers 大型语言模型中软关注对上下文的无关信息进行纳入对下一个标记生成产生副作用的问题,我们引入了系统 2 关注(S2A),它利用语言模型推理和遵循指令来决定应该关注什么,并通过重构上下文来提取相关部分,然后关注 - AMRFact: 使用 AMR 驱动的训练数据生成方法增强摘要事实性评估
通过将正确摘要解析为 AMR 图并注入有控制的事实不一致性来生成负样本,AMRFact 提出了一种新的框架,使得能够以高错误类型覆盖率生成连贯的事实不一致摘要,从而在抽象化摘要中评估事实性方面表现出明显的优势。
- 通过行为微调提高信息查找对话的事实准确性
BeInfo 是一种简单而有效的方法,应用行为调整以增加信息寻求对话系统的忠实度,并展示了在数据集和领域见过和未见过的情况下,具有良好性能和超越 GPT4 的潜力。
- 针对事实性的语言模型微调
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
- 大型语言模型中的事实性调查:知识、检索与领域特定性
该研究总结了大型语言模型中的事实性问题,讨论了其不准确性对不同领域应用的潜在影响和挑战,分析了导致事实性错误的主要原因,介绍了评估模型事实性的方法和策略,提供了研究人员指南以增强大型语言模型的事实可靠性。
- EMNLP超越事实性:大型语言模型作为知识生成器的综合评估
通过 CONNER 对大型语言模型在知识密集型任务中生成的知识进行综合评估,发现事实性的小错误并不会显著影响下游任务,因此相关性和连贯性比事实性更为重要。此外,研究还提出了通过 Prompt Engineering 和 Knowledge - FreshLLMs: 利用搜索引擎增强大型语言模型
本研究重点研究了大型语言模型在回答当前世界知识测试问题方面生成文本的真实性,提出了 FreshQA 动态问答基准和 FreshPrompt 强化性指示方法,通过使用相关和最新信息从搜索引擎检索来提高大型语言模型的性能。
- ExpertQA: 专家策划的问题及答案
验证与归因对于领域特定的语言模型在高风险领域中提供准确信息至关重要,本研究通过领域专家的参与,对领域特定的语言模型生成的回答进行事实性和归因方面的评估研究,并构建了包含 32 个领域,2177 个问题以及验证答案和归因的高质量长型问答数据集 - 通过动态知识选择优化文本生成的事实准确性
DKGen 将文本生成过程划分为迭代过程,通过动态选择相关性高的参考段落,消除与先前生成的文本和查询无关的引用,从而增强了它正确使用外部知识的能力。实验结果表明,DKGen 优于所有基准模型。
- 从头到尾:大型语言模型(LLM)有多专业?也可以称之为 LLM 是否可以取代知识图谱?
通过 Head-to-Tail 基准测试,我们评估了 14 个公开可用的大型语言模型在掌握事实性知识方面的表现,发现现有的大型语言模型在掌握中间到较不常见的实体的事实方面仍有很大的改进空间。
- 利用机器翻译的事实性检测 —— 德国临床文本的应用案例
使用机器翻译将英文数据翻译为德文,以训练基于变压器的事实检测模型,以解决临床文本中的事实性问题。
- 放射学报告总结的指导:实证评估和错误分析
自动生成放射学报告的简明摘要可以减轻临床医生的手动负担,并提高报告的一致性。本研究解决了当前方法依赖领域特定资源和了解错误和失败模式的不足,并提出了一种领域无关的变长提取式摘要作为导向信号,进一步改进了自动摘要的效果,并发现自动摘要与放射学 - 生成言语模型事实性评估基准
本文通过提出 FACTOR 方法,使用自动转换真实语料库的方式评估语言模型的事实推理能力,并通过 Wiki-FACTOR 和 News-FACTOR 两个基准测试数据集测试方法的有效性。
- ACL参考文献的重要性:使用细粒度评估框架对对话摘要的事实纠错进行基准测试
本文提出 FERRANTI 框架,基于参考文献纠错的细粒度评估机制,通过实验证明了 FEC 方法在不同事实错误类别上的显著性能差异,以及提出的最佳训练模式。
- ACL语言生成注入知识:医疗对话中自动绘制出院后护理指导的案例研究
本文使用知识提升了自然语言生成中对于罕见词汇的处理能力,以提高在医疗保健等高风险领域的文本输出的准确性。在应用于生成医患对话的治疗后教育指导时验证了该方法可以提高模型的精确性和连贯性,同时保持流畅性。
- 模拟专家角色引导场景:一种执行认知工作的卓越策略
该研究使用大型语言模型 (Large language models) 和模拟人物 (Simulated personae) 来强化人类常识与认知,展现专家行为的力量,其中包括挑战 LLM 回应的准确度以及复现量子光学领域的最新研究结果。
- ACL对长篇问答评估的关键评估
对长篇答案进行有针对性的评估研究,强调评估多维度因素,发现自动文本生成的评价指标不能预测人类喜好,建议未来的评估中,应该注重准确性、完整性和客观性等多个方面。