置信度感知子结构束搜索（CABS）：通过大型语言模型减轻结构化数据生成中的幻觉

May, 2024

置信度感知子结构束搜索（CABS）：通过大型语言模型减轻结构化数据生成中的幻觉

Confidence-Aware Sub-Structure Beam Search (CABS): Mitigating Hallucination in Structured Data Generation with Large Language Models

PDF

Chengwei Wei, Kee Kiat Koo, Amir Tavanaei, Karim Bouyarmane

TL;DR使用大型语言模型（LLMs）生成结构化数据时，为了解决不正确引用或幻觉问题，需要将某种模型置信度方法纳入其中。本研究首先探讨了生成子结构级数据的置信度估计方法，引入了基于 LLM 变换器的 Confidence Network 概念，作为比传统的标记条件概率更有针对性的估计。其次，我们提出了 Confidence-Aware 子结构级 Beam Search（CABS），这是一种在结构化数据生成中操作子结构级别的新型解码方法。CABS 通过考虑 Confidence Network 为每个子结构级数据提供的置信度分数，并迭代优化提示信息，提高结构化数据生成的可靠性。结果表明，CABS 相比传统的标记级别 Beam Search，在产品属性生成问题上平均提高 90% Precision 下的回召率达到 16.7%。

Abstract

large language models (LLMs) have facilitated structured data generation, with applications in domains like tabular data, document databases, product catalogs, etc. However, concerns persist about generation veracity due to incorrect references or hallucinations, necessitating the inco

large language models confidence estimation sub-structure-level data confidence network cabs

发现论文，激发创造

通过基于激活的置信度校准和引导解码增强语言模型的真实性

在本文中，我们首先提出一种基于激活的校准方法 ActCab，它在语言模型的最后一层激活上训练一个线性层，能更好地捕捉知识的表征。在 ActCab 的基础上，我们进一步提出了一种以置信度为指导的解码策略 CoDec，以从语言模型中得到置信度高的真实答案。通过在五个热门问答基准上进行评估，ActCab 在校准性能方面优于所有竞争基准，例如平均期望校准误差减少了最高 39%。进一步对 CoDec 进行的实验证明，在挑战性问答数据集（如 TruthfulQA）上提升了几个语言模型的真实性，突显了置信度信号在增强真实性方面的价值。

Jun, 2024

通过置信度放宽增强 ASR 解码

该论文提出了一种解码过程，改进了现有的基于 beam search 的自动语音识别系统中的缺陷，特别是针对最近提出的自监督学习（SSL）模型中高度自信的预测所带来的问题，并且不需要额外的训练以及模型参数，并且在低资源场景中实现了一致的改进。

Dec, 2022

如何通过波束搜索提高生成序列标注中的跨度级别置信度估计？

本文旨在提供一些关于如何估计生成序列标注模型的置信度的实证见解，特别是如何可靠地评估模型对每个标记的预测置信度，我们发现，简单地使用解码器的输出概率并不是实现良好校准置信度估计的最佳方法，而我们提出的通过顶部 - k 预测的统计数据的方法，在六个不同任务的公共数据集上得到了验证。

Dec, 2022

抽象摘要中幻觉缓解的改进束搜索

本研究旨在探讨如何在摘要生成过程中应用自然语言推理来检测和预防虚假信息，通过使用一个 NLI 辅助的 beam排序机制，从而大幅提高基于 XSum 与 CNN/DM 数据集的摘要生成效果。

Dec, 2022

自信的自适应语言建模

使用 Confident Adaptive Language Modeling（CALM）动态分配不同量的计算资源，早期退出解码以减少计算，从而在维持高性能的同时最多可提速三倍，理论分析和实验表明其在减少计算方面的有效性。

Jul, 2022

信任你的证据：上下文感知解码减少幻觉

提出了一种上下文感知解码技术（CAD），通过对比上下文的存在与否来放大模型生成输出的概率得分，从而显著提高了 OPT、GPT、LLaMA 和 FLAN-T5 等不同 LM 系列在摘要任务中的可信度，并能够有效地改变模型的先验知识以解决知识冲突而带来的质量问题。

May, 2023

使用音频和文本共享的潜在表示进行高效音频字幕生成

通过提出预训练的 Transformer 架构、数据增强技术和参数高效的推理算法，研究针对自动音频字幕生成应用中存在的过度参数化、虚构现象和大内存占用的问题，通过语义对齐和类似度计算等方法，提升性能并减少模型复杂度。

Sep, 2023

利用语义重建缓解视觉语言模型中的幻像

通过准确定位和惩罚产生错觉的标记，ESREAL 提出了一种新颖的无监督学习框架，以抑制视觉 - 语言模型在生成长字幕时的幻觉，通过分析图像本身的信号实现减少错觉的目标。

Mar, 2024

基于注意力机制的序列到序列模型语音识别置信度估计

本文探讨如何使用语音识别器的置信度得分来评估转录质量，提出了一种名为信心估计模块（CEM）的轻量化且有效的方法来解决端到端模型的过度置信问题，并发现 CEM 能潜在地改善半监督学习等下游任务。

Oct, 2020

通过隐式结构建立提高认知启发型数据有效语言模型的性能

在这篇文章中，我们描述了我们在 2023 年 BabyLM 挑战赛上对数据高效的语言模型（LM）预训练的提交。我们使用结构型语言模型架构以及其变种，将有关层次化句子结构的无监督预测纳入模型架构中，并在 39 个 BabyLM 挑战赛提供的任务上进行了评估，结果显示在某些特定任务上，将层次化偏差整合到架构中的模型表现出有希望的改进，尽管它们未能在所有任务上始终超过挑战赛组织者提供的 RoBERTa 基准模型。

Oct, 2023