通过联邦学习训练混合领域翻译模型

ACLMay, 2022

通过联邦学习训练混合领域翻译模型

Training Mixed-Domain Translation Models via Federated Learning

Peyman Passban, Tanya Roosta, Rahul Gupta, Ankit Chadha, Clement Chung

TL;DR本文利用联邦学习来处理复杂的混合域翻译模型训练任务，证明了在训练过程中进行轻微的修改并采用基于联邦学习的聚合方法，可以轻松地适应不同域，从而构建出与依赖于集中式训练技术的最先进基准相媲美的神经机器翻译引擎。同时，此研究还在五个数据集上进行了验证，并论述了 FL 和 NMT 如何互相受益。此外，研究者们还提出了一种新的技术，通过在 FL 更新期间选择具有影响力的参数来动态控制通信带宽大小，针对需要在 FL 双方之间交换非常大的 NMT 引擎的情况，这是一项重要的成果。

Abstract

Training mixed-domain translation models is a complex task that demands tailored architectures and costly data preparation techniques. In

federated learning neural machine translation mixed-domain translation models data preparation techniques

发现论文，激发创造

仅传递所需内容：在联邦多语言机器翻译中学习高效通信

本文提出了一种基于元学习的自适应参数选择方法 MetaSend，通过学习客户端在不同联邦学习轮次之间的张量偏差，提高了联邦学习多语言神经机器翻译中模型传输过程的通信效率，并在有限通信预算下，在两个具有不同语言分布的数据集上的翻译质量方面表现出了显著提升。

Jan, 2024

神经机器翻译的通信高效联合学习

本文提出了一种基于控制器层的新颖解决方案，可以在减少通信开销的同时，实现在联邦学习设置下训练神经机器翻译模型的高效构建，并在五个不同领域的数据集翻译德语至英语的实验中得到了与中心和非联邦学习设置下训练的模型相当的表现，同时顺利降低了联邦学习模型的通信流量与开销。

Dec, 2021

面向医学转录分析的联合多语言模型

该论文介绍了一个针对医学实体标注等下游任务的大规模多语言模型的联邦学习系统，它能够跨越高度异质化的数据提供者进行训练，并通过本地训练步骤进一步提高全局模型的性能。

Nov, 2022

从整体到特定：基于领域转换网络的多领域翻译

本篇论文提出一种利用领域转换网络、知识蒸馏和对抗学习等方法，解决多领域翻译中通用和特定知识的统一建模问题，并在多种语言对上得到了比 fine-tuning 方法更为优秀的结果。

Nov, 2019

多领域神经机器翻译

本文提出了一种神经机器翻译方法，通过将文本领域视为不同的语言并使用多语言 NMT 方法创建多领域翻译系统，从而实现在单个模型中支持多个领域，我们的方法在翻译质量上有显著提高。同时探究了预先指定文本领域的必要性，发现预先指定领域是必须的，但即使未知也可以达到相当高的翻译质量。

May, 2018

联邦最近邻机器翻译

本研究提出了一种新颖的联邦最近邻机器翻译框架（FedNN），利用一轮基于记忆的交互来在不同客户端之间共享知识，并整合由私有文本数据构建的外部数据存储库，以构建低开销的隐私保护系统。用于机器翻译任务的传统 FL 算法在 FedNN 框架中被取代，它显著降低了计算和通信成本，并在不同 FL 设置中保持了良好的性能。

Feb, 2023

面向多语言神经机器翻译的适配器通信高效联邦学习

本文提出了一种新的联邦式多语言神经机器翻译框架。相比中心化训练，该框架通过模型同步，只传输轻量化的适配器模块，降低了模型同步的通信代价。作者同时探索了各种聚类策略来减少冲突，并在适配器模块上进行了修剪，成功地提出了通信效率。实验结果表明，该框架在实现相当甚至更好的性能的同时，可以将通信代价降低 98% 以上。

May, 2023

混合分布下的联邦多任务学习

该研究提出了一种基于混合模型假设的联邦多任务学习方法，该方法可以在设备上学习个性化模型并实现客户端和服务端两种架构下的联邦 EM 算法的收敛，同时在联邦学习基准测试中获得了更高的准确性和公平性。

Aug, 2021

生物医学自然语言处理的联邦学习系统评估

通过对 $2$ 个生物医学自然语言处理任务使用 $6$ 个语言模型评估联邦学习在医学领域的应用，结果显示：1）联邦学习模型在总体表现上优于单个客户数据训练的语言模型，有时甚至与整合数据训练的模型持平；2）当数据总量固定时，使用更多客户训练的语言模型表现较差，但基于预训练模型的转换器表现更加强劲；3）联邦学习训练的语言模型在客户数据独立同分布的情况下与整合数据训练的模型表现接近，但在非独立同分布数据下有明显差距。

Jul, 2023

面向边缘计算的个性化深度神经网络联合学习

该研究提出了一种多任务联邦学习算法，通过添加非联邦批归一化层来允许用户训练个性化的模型，该算法支持联邦优化策略并在实验中表现出更快的收敛速度和更好的个性化精度。

Jul, 2020