hallucination issues | BriefGPT

关键词hallucination issues

搜索结果 - 8

ToolBeHonest: 一个多层次幻觉诊断基准测试工具，用于帮助扩展的大型语言模型
通过引入综合诊断基准 ToolBH，评估工具增强型大型语言模型 (LLMs) 的幻觉问题，考虑深度和广度两个维度，通过多层次的诊断流程和三种场景进行评估，结果显示 ToolBH 基准的挑战性，更大的模型参数并不保证更好的性能，训练数据和响应
PDF4 days ago
使用预设立场进行反事实辩论以消除 LLM 的产生幻觉
提出了一种 CounterFactual Multi-Agent Debate (CFMAD) 框架，该框架通过强制 LLMs 为预定答案的正确性生成证明来覆盖 LLMs 固有的偏见，以减轻幻觉问题。在四个数据集上的实验证明了 CFMAD
PDF15 days ago
VALOR-EVAL: 大型视觉语言模型的整体覆盖和忠实度评估
大型视觉语言模型（LVLMs）在生成看似可信但事实上不正确的输出时存在幻觉问题，这损害了它们的可靠性。为了解决这些问题，我们介绍了一个多维度的评估基准和基于大型语言模型（LLM）的两阶段评估框架，通过对现有 LVLMs 进行实验，证明了我们
PDF2 months ago
为大型视觉语言模型提供定向指导调节，减轻幻觉
针对当前大型视觉 - 语言模型在生成回复和相应图像之间存在的不一致问题，本研究提出了一种名为 DFTG 的有针对性的指导数据生成框架，通过诊断模型的响应和图像，生成有针对性的指导数据以减轻幻觉问题。实验结果表明，与先前的数据集相比，我们的方
PDF3 months ago
Agent-FLAN: 大型语言模型的高效代理调优数据和方法设计
通过重新设计训练语料库，Agent-FLAN 可以有效地对语言模型进行微调，从而提高代理模型在各种评估数据集上的性能，此外，Agent-FLAN 还能显著减轻幻觉问题，并在略微提高通用能力的同时，不断提高语言模型的代理能力。
PDF3 months ago
Re-Ex: LLM 响应中的解释修订减少了事实错误
我们提出了 Re-Ex 方法，它通过加入一个称为事实错误解释步骤的新步骤，使用外部工具获取事实错误的证据，并让 LLMs 解释响应的问题部分，最后使用解释来修订响应，从而减少 LLMs 生成文本的幻觉问题。与 Factool、CoVE 和
PDF4 months ago
CARBD-Ko：韩语方面级别情感分类的语境注释评测基准数据集
本研究探讨了预训练语言模型中面向方面的情感分类（ABSC）所面临的挑战，特别关注上下文化和产生幻觉的问题。为了应对这些挑战，我们引入了 CARBD-Ko（一个上下文标注的韩文面向方面情感分类基准数据集），该数据集将方面和双标极性结合起来以区
PDF4 months ago
临床摘要中事实对齐的合成模仿编辑反馈
使用 ChatGPT 生成高质量反馈数据，从而改善临床笔记概括任务中的事实一致性，并展示了 GPT 编辑在人类对齐中的潜在用途，特别是从事实角度。
PDF8 months ago