坚持事实:自信解码实现忠实数据到文本生成
本文提出一种新方法,通过将生成器语言模型的概率输出与特殊的 “文本评论家” 分类器的输出结合起来,以评估输入数据与生成的文本之间的匹配程度,从而减轻神经数据到文本生成中的文字幻觉。实验证明,该方法对 WebNLG 和 OpenDialKG 基准具有改进效果。
Oct, 2023
本文介绍了在进行神经文本生成时,由于数据量不足,导致模型对于噪声的过度敏感,从而完成了对于 “幻觉” 生成文本的控制,通过该方法对 WikiBio 语料库进行测试,证明了其在人工和自动评估中的高效性。
Oct, 2020
该研究提出了一种基于 token 级别的、无参考幻觉检测任务以及相应的 HaDes 数据集,旨在解决预训练生成模型的幻觉问题,并通过迭代模型策略来减轻标签不平衡问题。
Apr, 2021
通过使用多分支解码器,结合基于共现分析和依存解析的简单高效的评分过程,针对 Data-to-Text Generation 的问题 ——Hallucinations 作出了研究,成功地减少了 Hallucinations,同时保持生成文本的流畅性和连贯性。
Feb, 2021
本文发现了一个简单的标准 —— 模型不确定性高 —— 会导致生成更多的错误内容(即幻觉),并提出了一种解码策略,该策略在存在不确定性时优化源和目标单词的点间互信息,从而减少幻觉的出现,并在 XSum 数据集上进行了实验证明,该方法降低了幻觉的概率,同时保持了黄色和 BertS 得分。
Oct, 2022
使用大型语言模型生成基于医生笔记的患者摘要,研究训练数据对生成摘要的准确性和质量的影响,使用对幻觉的严格标注协议,评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。
Feb, 2024
减少幻觉的输出或概括长文本文档摘要的幻觉是本论文的目标。通过在 Longformer Encoder-Decoder (LED) 模型的微调中结合数据过滤和联合实体与摘要生成(JAENS)技术,我们使用 PubMed 数据集来改善产生的摘要质量,并测量了实体级别的事实一致性。实验结果显示,经过微调的 LED 模型在生成论文摘要方面表现良好,基于一些预处理步骤的数据过滤技术能够减少生成摘要中的实体级别幻觉,从而提高了事实一致性指标。
Sep, 2023
提出了一种上下文感知解码技术(CAD),通过对比上下文的存在与否来放大模型生成输出的概率得分,从而显著提高了 OPT、GPT、LLaMA 和 FLAN-T5 等不同 LM 系列在摘要任务中的可信度,并能够有效地改变模型的先验知识以解决知识冲突而带来的质量问题。
May, 2023
在这项研究中,我们正式定义了虚构,并提出了一种在零镜头环境中定量检测虚构的框架,利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度,在模型无关环境中实现了 0.61 的准确度。值得注意的是,我们的解决方案保持了计算效率,比其他现有方法需要更少的计算资源,符合轻量化和压缩模型的趋势。
Mar, 2024