少样本情况下的联邦自然语言处理

Dec, 2022

少样本情况下的联邦自然语言处理

Federated NLP in Few-shot Scenarios

Dongqi Cai, Shangguang Wang, Yaozong Wu, Felix Xiaozhu Lin, Mengwei Xu

TL;DR本研究探讨了在缺乏训练样本标签的情况下，如何通过建立一种命名为 FFNLP 的系统，使用伪标注技术和提示学习技术的算法进化来实现联邦学习模型的训练，以优化移动设备自然语言处理 (NLP) 应用程序的性能。

Abstract

natural language processing (NLP) sees rich mobile applications. To support various language understanding tasks, a foundation NLP model is often fine-tuned in a federated, privacy-preserving setting (FL). This p

natural language processing federated learning few-shot scenario pseudo labeling privacy-preserving

发现论文，激发创造

联邦式少样本学习

本文介绍了一种新颖的问题：在联合学习场景下，如何面对数据有限的客户端。为了解决数据分布和本地数据不足等问题，提出了联合少样本学习框架，并进行了大量实验，证明了该框架的有效性。

Jun, 2023

联邦学习与自然语言处理：概述

本研究综述了在联邦学习框架下进行自然语言处理的主要挑战，包括算法挑战，系统挑战以及隐私问题，同时还提供了对现有联邦 NLP 评估方法和工具的批评性评估。研究结果呈现出当前研究的空白和未来方向。

Jul, 2021

FedNLP: 自然语言处理联邦学习方法的基准测试

本研究提出 FedNLP 框架，用于比较研究隐私保护、分散式学习方法在自然语言处理任务中的表现，并分析不同分区策略下联邦学习方法与自然语言处理的关联，为未来的研究提供借鉴。

Apr, 2021

FewFedWeight：针对多个 NLP 任务的 Few-shot 联邦学习框架

FewFedWeight 是跨多个任务的 few-shot 联邦学习框架，通过在隔离设备上训练客户端模型，广播全局模型并为客户端生成伪数据，同时使用能量算法对伪样本进行加权，动态聚合客户端模型的自适应模型权重更新全局模型，可显著提高客户端模型的性能。

Dec, 2022

AUG-FedPrompt: 基于数据增强 Prompt 的实用 Few-shot 联邦 NLP

本研究提出了一种基于数据增强的联邦学习算法 AUG-FedPrompt，针对 NLP 中数据稀缺和隐私保护等问题，使用少量有标签数据与海量无标签数据训练，可在联邦学习任务中取得与使用全部有标签数据进行微调一致的表现。

Dec, 2022

生物医学自然语言处理的联邦学习系统评估

通过对 $2$ 个生物医学自然语言处理任务使用 $6$ 个语言模型评估联邦学习在医学领域的应用，结果显示：1）联邦学习模型在总体表现上优于单个客户数据训练的语言模型，有时甚至与整合数据训练的模型持平；2）当数据总量固定时，使用更多客户训练的语言模型表现较差，但基于预训练模型的转换器表现更加强劲；3）联邦学习训练的语言模型在客户数据独立同分布的情况下与整合数据训练的模型表现接近，但在非独立同分布数据下有明显差距。

Jul, 2023

使用递归与注意力模型以及 NVFlare 进行多地点临床联合学习

医学自然语言处理的一种实用方法，采用联合学习、自然语言处理模型和 NVIDIA 的 NVFlare 框架，结合 BERT 预训练模型来增强病人护理和临床决策制定的准确性和性能，同时解决数据隐私和合规性问题。

Jun, 2023

跨移动设备进行百亿规模语言模型的联邦微调

FwdLLM 是一种创新的 FL 协议，通过无需执行误差反向传播训练方法的方式，在手机设备上实现了更好的内存效率和时间效率，具有比传统方法更快的收敛速度和更小的内存占用。

Aug, 2023

部分联邦学习

我们提出了一种名为 Partial Federated Learning (PartialFL) 的新算法，该算法使用一部分数据模态或其中间表示来训练机器学习模型，并通过禁止数据标签传送到云端进行模型训练以提高隐私保护效果，我们在两个不同的多模态数据集上评估了我们的方法，并展示了有希望的结果。

Mar, 2024

N-gram 语言模型联邦学习

提出使用联邦学习算法来训练生产级的 n-gram 语言模型，以解决在处理隐私敏感数据时面临的数据安全问题，该算法特别适用于便携式设备，如智能手机。同时通过将递归神经网络语言模型近似为能快速部署在设备上进行推理的 n-gram 模型，实现了联邦学习在虚拟键盘等场景下的应用。

Oct, 2019