逐步融合：基于语言模型的多模态文本识别的生成式融合解码算法

May, 2024

逐步融合：基于语言模型的多模态文本识别的生成式融合解码算法

Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition

Chan-Jan Hsu, Yi-Chang Chen, Feng-Ting Liao, Pei-Chen Ho, Yu-Hsiang Wang...

TL;DR我们引入了 “Generative Fusion Decoding”（GFD），这是一种新颖的浅层融合框架，用于将大型语言模型（LLMs）集成到自动语音识别（ASR）和光学字符识别（OCR）等多模态文本识别系统中。通过将文本令牌空间映射到字节令牌空间，我们推导出了启用 GFD 在不同模型的不匹配令牌空间上运行所需的公式，从而在解码过程中实现无缝融合。该框架是即插即用的，与各种自回归模型兼容，不需要重新训练以进行特征对齐，从而克服了以前融合技术的局限性。我们强调了 GFD 的三个主要优势：首先，通过简化对齐不同模型样本空间的复杂性，GFD 使 LLMs 能够与识别模型一起纠正错误，减少计算延迟。其次，GFD 充分利用了 LLMs 的上下文学习能力，增加了在长篇演讲识别和指令感知语音识别中的鲁棒性。第三，GFD 使得与 LLMs 广泛训练的、在中文识别方面存在不足的识别模型进行融合成为可能。我们的评估表明，GFD 在 ASR 和 OCR 任务中显著提高了性能，其中 ASR 在 NTUML2021 基准中达到了最先进水平。GFD 在模型集成方面迈出了重要的一步，提供了一种统一的解决方案，可以通过逐步融合来广泛适用于利用现有预训练模型。

Abstract

We introduce ``generative fusion decoding'' (GFD), a novel shallow fusion framework, utilized to integrate large language models (LLMs) into multi-modal text recognition systems such as automatic speech recogniti

generative fusion decoding large language models multi-modal text recognition alignment of different model sample spaces state-of-the-art asr and ocr

发现论文，激发创造

永不为晚：将声学信息融入大型语言模型的自动语音识别

使用大型语言模型进行生成性错误纠正时，通过融合声学信息，提出了一种名为 Uncertainty-Aware Dynamic Fusion (UADF) 的新型晚期融合解决方案，该方法在自回归解码过程中实施多模态融合，并在处理 LLM 中的数据不确定性问题、缓解融合过程中单一模态的泛化能力差以及改善字词错误率方面取得了显著的改进。

Feb, 2024

使用大型语言模型进行大规模多语言浅层融合

利用单一多语言语言模型（LM）来进行多语言浅层融合任务，并将其应用于最先进的端到端模型，相对于类似推理期间的密集 LM ，GLaM 可将英语长尾测试集的 WER 降低 4.4 ％，平均相对 WER 降低 3.85％，并且最高降低 10％。

Feb, 2023

多粒度引导的解码中融合

在开放领域问答系统中，为了避免检索到的结果中出现不相关和虚假的上下文，通过多层次的粒度来识别相关证据的融合解码器模型被提出，该模型在多任务学习的基础上，通过将显著的句子聚合为一个锚向量来指导解码器，并通过复用重排列结果来提高解码效率。实验证明，该模型在自然问题和文学问题数据集上的性能优于现有模型，凸显了其多粒度解决方案的好处。

Apr, 2024

多语言和全非自回归 ASR 与大型语言模型融合：一项全面研究

在大模型时代，解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统，有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来，在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8％和 3.6％。此外，我们的综合消融研究分析了关键参数，如 LLM 大小、上下文长度、词汇大小、融合方法等。例如，我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。

Jan, 2024

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

基于语法对齐的解码

通过提出自适应采样算法（ASAp）来解决语法对齐解码（GAD）问题，该算法确保输出结果遵循给定的语法约束，同时与语言模型的条件概率分布相匹配，以高概率生成高质量的输出。

May, 2024

神经文本生成的一种令人沮丧的简化解码方法

本文介绍了一种名为 Frustratingly Simple Decoding (FSD) 的超级高效的解码方法，通过构建一个基于先前生成文本的 anti-LM 来惩罚未来生成的文本，实现了神经文本生成的更好效果，且不增加额外的模型参数和计算开销。

May, 2023

大和小语言模型协同解码的经验研究

利用 Fast and Slow Generating（FS-GEN）统一框架，研究了大型语言模型（LLMs）与小型语言模型（SLMs）之间的协同解码，包括投机解码、对比解码和仿真或代理微调等技术，并通过 FS-GEN 解析了 LLMs 和 SLMs 之间的不同知识能力，揭示了协同交互的比例需求和基于不确定性的有效合作位置。

Jun, 2024

采用图表示法导航，快速可扩展解码神经语言模型

提出一种名为 Fast Graph Decoder (FGD) 的 softmax layer 近似算法，可快速识别给定上下文中最可能出现的 K 个单词，从而减少解码时间并保持接近全 softmax 基线准确率，在神经机器翻译和语言建模任务上证明了其有效性，同时也证明了其理论保证。

Jun, 2018

基于灵活语法约束解码的语言模型

本论文研究了 LLMs 在信息提取等任务中生成复杂输出结构的问题，提出了一种基于形式语法约束的解码方法，通过合理的限制保证生成的符号序列能够具有语法正确性，同时在大型符号集信息提取和实体消歧方面取得了良好的效果，结果表明在缺乏训练数据、后调较为昂贵的场景下，采用基于形式语法约束的解码策略能够有效提升模型生成结构化输出的能力。

May, 2023