联邦学习中的未登录词学习
本文提出了一种个性化的 OOV 扩展技术,借助于 Federated Learning,在减小对内存和延迟的影响的同时,有效地将知识从中心模型转移,学习为个性化词汇的单词嵌入。结果表明,与标准的 FL 个性化方法相比,OOV 扩展明显优于常见的 FL 基准测试。
May, 2023
本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习,并且相比于之前的方法,该方法可以实现更高的召回率和更高的准确性。
Feb, 2023
本文介绍了一种基于多层数据扩增的 OOV 坚韧性槽填充模型,通过从词和槽的角度解决 OOV 问题。实验表明,该模型比现有模型和之前的最佳模型在 OOV 词和槽方面表现更出色。
Feb, 2023
本研究使用分布式联合学习框架 Federated Learning 对一个智能手机虚拟键盘中的递归神经网络语言模型进行训练,证明了在无需导出用户数据到服务器的情况下,在客户端设备上训练语言模型是可行的,在此应用场景中,使用 Federated Averaging 算法进行的训练可以完成更好的预测记忆,这种联合学习的环境可以保护用户数据隐私,使用分布式训练与集中式聚合来将隐私保护的思路融入到训练过程中。
Nov, 2018
本文提出了一种基于少样本回归的新型分层注意力神经网络结构来解决训练集中不存在的词导致词向量精度下降的问题,实验表明该方法在学习 OOV 词嵌入方面具有优越性。
Jul, 2019
本研究提出了一种基于表面形式和上下文预测不能识别的单词的表示方法,解决了基于神经网络的序列标记系统中的词汇外问题(OOV problem),实验结果显示该方法在对比现有最先进的方法时表现更好。
May, 2019
本文通过利用递归神经网络预测移动键盘上输入文本的 emoji,演示了利用预训练模型和联邦学习训练生产质量自然语言理解模型的可行性,提出了多种触发 emoji 和调整候选项多样性的机制,并证明了基于联邦学习的分布式设备学习框架可以获得比基于服务器训练的模型更好的性能。
Jun, 2019
提出使用联邦学习算法来训练生产级的 n-gram 语言模型,以解决在处理隐私敏感数据时面临的数据安全问题,该算法特别适用于便携式设备,如智能手机。同时通过将递归神经网络语言模型近似为能快速部署在设备上进行推理的 n-gram 模型,实现了联邦学习在虚拟键盘等场景下的应用。
Oct, 2019
本文提出了一种基于声学增强的语言模型的后处理方法,通过基于语境和音素知识来匹配和恢复正确的上下文单词,该方法可以在多个类别中恢复平均 50% 的基于上下文的未登录词。
Jun, 2022
利用 TTS 引擎为训练数据中不常见的词提供合成音频,并使用正则化技术在编码器上应用弹性权重整合,从而提高 RNN-T 对 OOV 词的识别准确率并保持对非 OOV 词的性能,相对 WER 可减少 57%。
Nov, 2020