- 利用参数高效的迁移学习进行多语言文本到语音调整
在多种语言环境中,为了有效地合成语音,开发一个能够应对不同语言的语音合成模型是具有挑战性的。本文提出了一种在多语言语音合成中,将参数高效的迁移学习方法(如适配器和超网络)与 TTS 架构集成的方法,并在实验中证明这种方法在性能上能够与全面微 - DARA: 域和关系感知适配器 实现对视觉定位的参数高效调整
基于文本描述对图像中的物体进行定位的视觉 grounding 是一项具有挑战性的任务。本文通过提出一种名为 DARA 的新的参数高效迁移学习方法,利用域感知适配器 (DA Adapters) 和关系感知适配器 (RA Adapters) 来 - AUFormer:视觉 Transformer 是参数高效的面部动作单元检测器
基于面部动作单元(AU)的参数高效迁移学习方法,引入 AUFormer 和 MoKE 协同机制,以实现参数高效的 AU 检测,并设计了一种 MDWA-Loss 以更好地关注激活的 AU、区分未激活 AU 的难度并排除潜在标签错误样本。实验证 - 预训练语音模型的高效适配器调优用于自动说话人验证
通过在预先训练的模型中插入轻量级适配器模块,将自监督语音模型适应到说话人验证任务中,我们提出了一个高效的适配器框架。实验结果表明,该框架在更新仅 5% 的参数的情况下,超过了微调和其他参数高效的迁移学习方法,实现了卓越的性能。
- 通过适配器的软混合高效微调音频频谱变换器
本论文旨在探索 Mixture of Experts(MoE)在参数高效微调音频光谱变换器用于音频和语音下游任务时的应用,提出了基于适配器的软混合专家方法(Soft-MoA),通过将输入令牌和专家之间进行软分配,不仅保持了计算时间的限制,而 - AAAI基于 p-Laplacian 的适应性生成预训练视觉 - 语言模型
本文提出了一种新的建模框架,将适配器调谐视觉 - 语言模型中的注意力转化为基于注意力图的图消息传递过程,其中,投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中,适配器调谐视觉 - 语言模型需要处理异种图,为此,我们提出了 - AAAIVMT-Adapter: 多任务强化学习的参数高效迁移学习
大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而,与其它单一任务的适应性方法相比,在多任务适应方面的研究有限,这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器(VMT-Adapter),其训练和推理 - AAAIMmAP:用于跨领域多任务学习的多模态对齐提示
利用多模态对齐提示(MmAP)和创新的多任务提示学习框架,本文在多任务学习中实现了显著的性能改进,同时仅利用约 0.09%的可训练参数。
- AAAIDTL:用于视觉识别的解耦式迁移学习
通过提出深度解耦迁移学习(DTL),我们可以减少大量的 GPU 内存使用和可训练参数,并在准确性上显著超过现有的 PETL 方法,在几个标准基准上达到了新的最先进水平。
- EMNLP适配器:一种参数高效与模块化迁移学习的统一库
Adapters 是一个开源库,将参数高效和模块化的迁移学习统一起来,通过整合 10 种不同的适配器方法,提供简便的使用和灵活的配置;该库通过组合模块允许研究人员和从业者利用适配器的模块化设计复杂的适配器设置;通过在各种自然语言处理任务上评 - 视觉变压器的分层侧调节
通过轻量级分层侧网络(HSN)对 Visual Transformers 进行 Hierarchical Side-Tuning (HST) fine-tuning,实现了在各种下游任务中解决计算和内存需求大的问题,包括对象检测、实例分割和 - UniPT: 通用并行调优的高效参数和内存迁移学习
提出了一种名为 Universal Parallel Tuning (UniPT) 的新型内存高效 PETL 策略,通过轻量级的可学习并行网络进行传输过程,减少内存消耗,并在不同架构上在低内存场景下实现更高的性能。
- 遥感图像文本检索的参数高效迁移学习
通过参数高效的迁移学习方法,将自然领域的视觉 - 语言知识有效且高效地转移到遥感领域的图像 - 文本检索任务上,提出了一个新颖而复杂的参数高效转移学习框架,通过预训练的 CLIP 模型、多模态遥感适配器和混合多模态对比学习目标来解决遥感数据 - ICCVVLN-PETL:用于视觉语言导航的参数高效迁移学习
我们在第一次研究中探索了用于 VLN 任务的 PETL 方法,并提出了一种名为 VLN-PETL 的 VLN 特定 PETL 方法。该方法通过设计两个 PETL 模块:历史交互增强器(HIB)和跨模态交互增强器(CIB),并将其与几种现有 - 探索密集预测的参数,记忆和时间高效适配器调整:参数高效并不足够
本文提出了一种名为 E3VA 的参数、内存和时间高效的视觉适配器调节方法,通过梯度反向传播高速公路实现低秩适配器,可以在保持模型性能相当的情况下,节省高达 62.2% 的训练存储器和 26.2% 的训练时间。
- ACL对话状态跟踪领域自适应的零样本自适应前缀
Prompter 提出了一种使用目标领域槽的描述生成动态前缀的方法,从而使得可以在零样本情况下使用前缀调整。该方法在 MultiWOZ 和 SGD 基准测试中均优于以前的方法。
- ACL一个网络,多个掩码:迈向更高效的参数转移学习
本文提出了一种高效的参数共享迁移学习 (PROPETL) 方法,它可以在不同层间和任务间共享单一 PETL 模块,然后使用二进制掩码选择共享的原型网络的不同子网络,并将其应用为 PETL 模块进入不同的网络层中,从而达到大幅减少模型参数及存 - 我们真的需要大量的视觉提示吗?
本文研究了视觉转换器结构中 Prompt 数量对微调效果和自注意力操作的影响。通过理论和实证分析,我们发现增加 Prompt 数量并不能带来线性的性能提升。为此,我们提出 Prompt Condensation 技术来防止 Prompt 数 - 大型 Transformer 的循环适应
本文提出了一种名为 REcurrent ADaption (READ) 的轻量级记忆型微调方法,可以在保持高模型质量的情况下,大大降低训练的内存消耗和 GPU 能源使用,特别适用于微调大型 Transformers 模型。
- 模式逼近生成优秀的视觉语言提示
本研究提出了 Aurora,一个优美的提示框架,用于跨模态传递,以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中, Aurora 不仅优于最先进的方法,甚至优于完全微调方法。