联邦学习中的未登录词学习

Mar, 2019

Federated Learning Of Out-Of-Vocabulary Words

Mingqing Chen, Rajiv Mathews, Tom Ouyang, Françoise Beaufays

TL;DR本文介绍了使用基于字符级别的循环神经网络的联邦学习方法，以扩展智能手机虚拟键盘的词汇量，并且在不透露敏感文本的情况下学习未知单词（Out-of-Vocabulary Words）。研究表明该方法可行，并且在使用联合后验概率直接抽样的情况下，该模型对常用的未知单词有良好的识别以及较低的交叉熵损失。

Abstract

We demonstrate that a character-level recurrent neural network is able to learn out-of-vocabulary (OOV) words under federated learning settings, for the purpose of expanding the vocabulary of a →

federated learning recurrent neural network out-of-vocabulary words virtual keyboard smartphones

发现论文，激发创造

设备上个性化学习用语

本文提出了一种个性化的 OOV 扩展技术，借助于 Federated Learning，在减小对内存和延迟的影响的同时，有效地将知识从中心模型转移，学习为个性化词汇的单词嵌入。结果表明，与标准的 FL 个性化方法相比，OOV 扩展明显优于常见的 FL 基准测试。

May, 2023

强调未见过的单词：端到端语音识别的新词汇习得

本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习，并且相比于之前的方法，该方法可以实现更高的召回率和更高的准确性。

Feb, 2023

针对槽位填充的词汇外问题的再探：一种综合对比框架，配有多级数据增强

本文介绍了一种基于多层数据扩增的 OOV 坚韧性槽填充模型，通过从词和槽的角度解决 OOV 问题。实验表明，该模型比现有模型和之前的最佳模型在 OOV 词和槽方面表现更出色。

Feb, 2023

移动键盘预测的联邦学习

本研究使用分布式联合学习框架 Federated Learning 对一个智能手机虚拟键盘中的递归神经网络语言模型进行训练，证明了在无需导出用户数据到服务器的情况下，在客户端设备上训练语言模型是可行的，在此应用场景中，使用 Federated Averaging 算法进行的训练可以完成更好的预测记忆，这种联合学习的环境可以保护用户数据隐私，使用分布式训练与集中式聚合来将隐私保护的思路融入到训练过程中。

Nov, 2018

针对未登录词的少样本表示学习

本文提出了一种基于少样本回归的新型分层注意力神经网络结构来解决训练集中不存在的词导致词向量精度下降的问题，实验表明该方法在学习 OOV 词嵌入方面具有优越性。

Jul, 2019

序列标注中新词的任务特定表示学习

本研究提出了一种基于表面形式和上下文预测不能识别的单词的表示方法，解决了基于神经网络的序列标记系统中的词汇外问题（OOV problem），实验结果显示该方法在对比现有最先进的方法时表现更好。

May, 2019

移动键盘表情预测的联合学习

本文通过利用递归神经网络预测移动键盘上输入文本的 emoji，演示了利用预训练模型和联邦学习训练生产质量自然语言理解模型的可行性，提出了多种触发 emoji 和调整候选项多样性的机制，并证明了基于联邦学习的分布式设备学习框架可以获得比基于服务器训练的模型更好的性能。

Jun, 2019

N-gram 语言模型联邦学习

提出使用联邦学习算法来训练生产级的 n-gram 语言模型，以解决在处理隐私敏感数据时面临的数据安全问题，该算法特别适用于便携式设备，如智能手机。同时通过将递归神经网络语言模型近似为能快速部署在设备上进行推理的 n-gram 模型，实现了联邦学习在虚拟键盘等场景下的应用。

Oct, 2019

基于上下文的印度语 ASR 系统中的生词恢复

本文提出了一种基于声学增强的语言模型的后处理方法，通过基于语境和音素知识来匹配和恢复正确的上下文单词，该方法可以在多个类别中恢复平均 50% 的基于上下文的未登录词。

Jun, 2022

使用合成音频改善端到端 ASR 系统中新词的识别

利用 TTS 引擎为训练数据中不常见的词提供合成音频，并使用正则化技术在编码器上应用弹性权重整合，从而提高 RNN-T 对 OOV 词的识别准确率并保持对非 OOV 词的性能，相对 WER 可减少 57％。

Nov, 2020