语言模型融合 ASR 中无意记忆的检测

Apr, 2022

语言模型融合 ASR 中无意记忆的检测

Detecting Unintended Memorization in Language-Model-Fused ASR

W. Ronny Huang, Steve Chien, Om Thakkar, Rajiv Mathews

TL;DR通过黑匣子查询语言模型融合的语音识别器，检测语言模型训练数据中个别文本序列的记忆化现象，并通过梯度裁剪的语言模型训练方法降低此类记忆化对隐私的影响，同时不影响模型整体质量。

Abstract

End-to-end (E2E) models are often being accompanied by language models (LMs) via shallow fusion for boosting their overall quality as well as recognition of rare words. At the same time, several prior works show that LMs are susceptible to unintentionally memorizing rare or unique sequ

end-to-end models language models memorization privacy gradient-clipped lm training

发现论文，激发创造

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

大规模 ASR 模型中的非预期记忆及其缓解方法

通过简化的审计方法，我们展示了最先进的自动语音识别模型中的记忆化现象，并且证明通过梯度剪裁可以减轻记忆化对速度增强训练样本的影响。

Oct, 2023

通过交替教学减少语言模型中意外记忆

提出了一种新的交替教学方法来减少语言模型在训练集中记忆罕见或独特序列而导致泄漏用户数据的现象，该方法采用多个教师模型对各自独立的训练集进行训练，并以教师模型预测结果作为学生模型的监督信号，实验结果表明这种方法达到了比其他方法更好的隐私保护效果，而当训练数据充足时对整体效果损失很小。

Oct, 2022

使用 LM-aware MWER 训练来提高罕见词语识别

该研究介绍了在 discriminative training framework 中如何在 hybrid autoregressive transducer (HAT) 模型的学习中引入语言模型 (LMs) 来缓解训练和推理过程中使用 LMs 存在的差距。在浅层融合和重甄时，使用 LMs 显着提高了仅在训练期间极少见的单词的识别准确性。

Apr, 2022

神经网络中意外记忆的评估和测试：秘密共享者

该论文描述了一种测试方法，用于定量评估生成序列模型（一种常见的机器学习模型）意外记忆稀有或唯一的训练数据序列的风险，从而可以减少数据曝光，保护隐私。

Feb, 2018

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

终端到终端音频识别的声学模型融合

最近在深度学习和自动语音识别（ASR）方面的进展使得端到端（E2E）ASR 系统成为可能，并且将准确性提升到一个新的水平。我们提出将外部的 AM 整合到 E2E 系统中，以更好地解决领域不匹配问题，并取得了显著的词错误率降低，尤其在增强命名实体识别方面效果明显。

Oct, 2023

对于每个 (文本序列) 的独立性：改进大型语言模型中的记忆数据遗忘

通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法，本研究提供了关于 LLMs 隐私保护和遗忘的新视角，并在大量 NLP 任务上进行了全面的性能评估。

May, 2024

句子生成任务中的记忆提取技术

本研究研究了自然语言生成任务中的提取性记忆及其对神经机器翻译的影响，并提出了一种新的算法来生成确切的训练数据以减轻模型中的记忆问题，并通过微调来解决这个问题。

Oct, 2022